カーネギー・メロン大学とスタンフォード大学の最新共同研究によると、現在の人工知能エージェント(AIエージェント)の開発は深刻な「ルート依存」に陥っている。研究結果では、既存のAI評価基準がプログラミングタスクに過度に集中しており、米国労働市場の92%を占める非プログラミング分野を無視していることが示されている。

研究者たちは、主流の43のAI基準に含まれる7万2千のタスクを系統的に分析し、米国政府のO*NET職業データベースに記載されている1016種類の現実的な職業と比較した。

調査で明らかにされた不均衡な現状:

  • デジタル化業界の「基準の空白」:管理業務のデジタル化率は88%にもなるが、現行のAIテストではわずか1.4%にとどまっている。法律業務のデジタル化率は70%だが、テストでの占有比率は0.3%にとどまっている。

  • スキルのカバー範囲の著しいズレ:現在のAI評価は主に「情報取得」と「コンピュータ操作」という2つのスキルに焦点を当てているが、これらは米国の雇用の5%未満しかカバーしていない。一方で、現実の仕事において非常に重要な「人間関係の構築」カテゴリは、現行のAIテストではほとんど見られない。

  • 複雑さの増加による「能力の急落」:研究では、AIエージェントが複雑なタスクに直面した際の自律性が極めて悪くなることが分かった。最も得意とするソフトウェア開発の分野でも、タスクステップが増えると論理が複雑になると、AIの成功確率が急激に下がることが確認された。

研究者たちは、今後のAI評価基準は管理、法務、建築およびエンジニアリングなどの高価値で高デジタル化された分野に重点を置くべきだと呼びかけている。また、評価は最終的な結果だけでなく、AIが実行過程でどう動いているのかに注目すべきであり、目標の曖昧さや検証期間の長さといった現実的な課題を解決する必要がある。

この結論は市場データによって裏付けられている。Anthropicの最近の分析によると、そのAPI呼び出しの約50%はまだソフトウェア開発に集中している。専門家は警告している。もしAI開発が引き続き自動採点が容易なプログラミングタスクに夢中になり続けると、AIがより広範な経済分野で生産性を発揮する最適な機会を失うことになるだろう。