AI能力理解の格差は広がっている, Karpathyの指摘とその意味

**投稿者:** Andrej Karpathy (@karpathy)

**URL:** https://x.com/karpathy/status/2042334451611693415

**反応:** 19851 likes / 2406 reposts / 11237 bookmarks / 3997482 views

要約

Karpathyは、AIの実力に対する理解の格差が急速に広がっていると指摘している。無料版ChatGPTを少し触っただけの人の印象と、最先端モデルを日常的に使う開発者の実感の間には大きな断絶があり、特にコーディング領域では改善速度が凄まじいという話だ。引用先や関連記事を含めて見ると、この差は単なる主観ではなく、強化学習が効きやすい領域、評価しやすいタスク、そしてツールを使い込む専門家が最初に恩恵を受ける構造から生まれている。現時点で開発者が最も強くAIの進化を感じているが、同じ波は他職種にも広がる前兆だと読める。

本文

Karpathyの元ポストは、「AIの能力についての理解に growing gap, つまり認識ギャップが生まれている」という問題提起から始まる。背景にあるのは、AIをどう使っているかによって見えている世界がまるで違うことだ。無料版のChatGPTを去年少し試して、「そこそこ便利だけど大したことはない」と判断した人と、最先端モデルを有料で使い、特にコーディングに深く組み込んでいる人では、同じAIを見ているとは思えないほど評価が分かれる。

引用元の一文, 「どれだけAIに畏怖を感じるかは、どれだけAIをコーディングに使っているかと完全に相関する」, はかなり本質を突いている。コーディングは、正解や失敗が比較的検証しやすく、強化学習や自動評価を回しやすい。さらに、コード生成はB2B価値が高く、モデル提供側も大きな開発資源を投入しやすい。その結果、開発者向けAIは他領域よりも急速に性能が伸び、日常的に使う人ほど「もう別物だ」と感じやすい。

取得できた関連記事では、この状態をMatthew Burnsが「AI Psychosis」と呼ばれる感覚として紹介している。ここでの意味は病理ではなく、あまりに改善速度が速く、強い使用者ほど現実認識が更新されていく現象だ。彼の整理では、開発者が最初にこの変化を強く感じるのは、コードという分野がAI能力、AIツールへの習熟、そして現場ドメイン知識の3つがもっとも綺麗に重なるからである。つまり、開発者は特別に脅かされているのではなく、*最初に未来を体験している集団* だという見方だ。

この記事はまた、この現象が開発者だけのものでは終わらないと論じる。AnthropicのClaude Coworkのように、エンタープライズ向けのプラグイン、コネクタ、マネージドエージェントが整ってくると、HR、法務、財務、オペレーション、デザインなどでも、同じような「使い込んだ人だけが別の現実を見ている」状態が起きる。現時点ではコーディングが一番わかりやすいだけで、これは先行事例にすぎない。

さらに関連論考では、若年層や一般利用者が抱くAI観とのズレも指摘されている。多くの人は、学校やSNSで接する低品質なチャットボットやAIスロップを通してAIを認識しており、その印象は、プロフェッショナルが高度なAIエージェントやコーディング支援を通して得ている印象とは根本的に異なる。だから「AIは大したことない」という声と、「改善速度が異常だ」という声が同時に存在する。

要するにKarpathyのポストは、モデルそのものの能力論というより、*利用階層の違いが理解格差を生んでいる* という観察である。最先端モデルを、最も成果が出やすい領域で、日常的に、試行錯誤しながら使っている人は、AIの現在地をかなり高く見積もる。一方で、そこに触れていない人は、1年前の印象で世界を止めてしまう。

ここから実務的に読めるのは、AIを評価するときに「一般論」ではほぼ意味がないことだ。どのモデルを、どの料金帯で、どのタスクに、どれくらいの頻度と深さで使ったのかを切り分けないと、評価はノイズになる。特に開発や設計のように反復と検証のある仕事では、AIの改善は体感しやすく、そこで起きている生産性の飛躍は、やがて他分野にも波及する可能性が高い。

なぜ重要か

AIの能力評価を古い体験のまま固定すると、ツール選定、人材育成、事業判断が全部ずれる。今のAIを正しく測るには、最新モデルを実務に深く組み込んだ場合の手触りまで見ないといけない。

活用ポイント

AI評価では「誰が, どのモデルを, どの用途で, どれくらい使ったか」を分けて考える
コーディング領域で起きている変化は、他職種への先行指標として観察する価値が高い
無料版や単発試用だけで全体判断しない
組織内でAI活用の温度差がある場合、利用階層の違いが原因だと仮説を置く
AI導入はツール配布だけでなく、使い込みと検証の習慣設計まで含めて考える