研究の警告：AIエージェントのテストはプログラミングに偏り、92％の現実的な労働市場を無視

カーネギー・メロン大学とスタンフォード大学の最新共同研究によると、現在の人工知能エージェント（AIエージェント）の開発は深刻な「ルート依存」に陥っている。研究結果では、既存のAI評価基準がプログラミングタスクに過度に集中しており、米国労働市場の92％を占める非プログラミング分野を無視していることが示されている。

研究者たちは、主流の43のAI基準に含まれる7万2千のタスクを系統的に分析し、米国政府のO*NET職業データベースに記載されている1016種類の現実的な職業と比較した。

調査で明らかにされた不均衡な現状：

デジタル化業界の「基準の空白」：管理業務のデジタル化率は88％にもなるが、現行のAIテストではわずか1.4％にとどまっている。法律業務のデジタル化率は70％だが、テストでの占有比率は0.3％にとどまっている。
スキルのカバー範囲の著しいズレ：現在のAI評価は主に「情報取得」と「コンピュータ操作」という2つのスキルに焦点を当てているが、これらは米国の雇用の5％未満しかカバーしていない。一方で、現実の仕事において非常に重要な「人間関係の構築」カテゴリは、現行のAIテストではほとんど見られない。
複雑さの増加による「能力の急落」：研究では、AIエージェントが複雑なタスクに直面した際の自律性が極めて悪くなることが分かった。最も得意とするソフトウェア開発の分野でも、タスクステップが増えると論理が複雑になると、AIの成功確率が急激に下がることが確認された。

研究者たちは、今後のAI評価基準は管理、法務、建築およびエンジニアリングなどの高価値で高デジタル化された分野に重点を置くべきだと呼びかけている。また、評価は最終的な結果だけでなく、AIが実行過程でどう動いているのかに注目すべきであり、目標の曖昧さや検証期間の長さといった現実的な課題を解決する必要がある。

この結論は市場データによって裏付けられている。Anthropicの最近の分析によると、そのAPI呼び出しの約50％はまだソフトウェア開発に集中している。専門家は警告している。もしAI開発が引き続き自動採点が容易なプログラミングタスクに夢中になり続けると、AIがより広範な経済分野で生産性を発揮する最適な機会を失うことになるだろう。

智譜AIがAutoClaw iOS版を発表：モバイルエージェントの二つのパターンによる進化が始まる

智谱AIは、PC版に続き、iOS版「AutoClaw（澳龙）」をApp Storeでリリース。アカウントはPCとリアルタイム同期し、エージェントの作成・編集・削除やグループチャット管理が可能。複数のエージェントが協力して複雑なタスクを処理する「デュアルモード」機能が特徴。....

智譜AIが正式にAutoClawモバイルアプリをリリース、クラウドとデスクトップの2モードをサポート

智譜AIはAutoClaw PC版のリリースからわずか2カ月後、App Storeで独自にモバイルアプリをリリースし、AIエージェントの使用シーンを拡大しました。スマートフォンからいつでもエージェントを指揮して作業させることができるようになりました。この動きは、智譜AIがモバイルエコシステムを加速して構築し、ユーザーがアクセスするハードルを下げ、重要な一歩を踏み出したことを示しています。

通義千問の進化！アリババクラウドの千問クラウドが登場：AIエージェントが自立してクラウドにアクセスする

アリババクラウドは2026サミットで、AIエージェント向けの全スタックスマートインフラ「千問雲」を発表。コンピューティングからエージェント中心へのパラダイムシフトを示し、モデル選択、リソース呼び出し、認証設定、使用量照会などを含むモデルサービスの「スキル化」と「CLI化」を実現し、大規模言語モデル時代のサービスチェーンを再構築する。....

巨日禄、ボルカニックエンジンと深く協力し、AIショートドラマが産業化時代に入る

杭州巨日禄科技は火山エンジンと協業し、豆包動画生成モデルSeedance 2.0を導入。AIドラマ制作を「手工業的」から工業化フローへ転換し、効率と品質を両立。火山エンジンのモデルとクラウド基盤の統合により、映像制作の重要指標が飛躍的に向上した。....

支付宝にAI収支機能が登場、スマートエージェント決済エコシステムに新たなピースを追加