長年にわたり、大規模モデル分野での華山論劍はグーグル、OpenAI、Anthropicなどの研究室が主導してきた。しかし、先週、ビデオ会議の巨頭Zoomが衝撃的な一撃を放した。その人工知能システムが「人間最後の試験(Humanity's Last Exam, HLE)」と称されるトップレベルのベンチマークテストで、これまでグーグルのGemini3Proが保持していた45.8%を上回る48.1%の成績を記録し、世界記録を更新した。

モデルを練るより「兵法」を練る:連携型AIの道
「下位モデルメーカーがモデルの大手を追い越すにはどうすればいいのか」という疑問に対して、ZoomのCTOであり、かつてマイクロソフトのAIの筆頭だった黄学東(Xuedong Huang)はまったく異なる答えを示した。Zoomは、巨額の資金を投入して自前のテラパラメータの巨大モデルを訓練する代わりに、精密な「連携型AIアプローチ」を開発した。
Zスコアラー(Z-Scorer): システムの中枢となる脳で、OpenAI、Google、Anthropicなど複数のモデルからの応答をリアルタイムで評価し、特定のタスクに対する最適な解決策を選定する。
探索-検証-連携戦略: 智能体(Agent)ワークフローであり、複数の人工知能システムが「議論的協力」を通じて互いに挑戦し、推論結果を改善する。
トラフィックコントローラー: 要するに、Zoomは非常に賢い人工知能の「スケジューリングセンター」を構築し、独自開発ではなく統合によって、「あらゆる単一モデルの限界を超える」性能を実現した。
論争の渦中:真の革新なのか、それとも「他家の成果を盗用」なのか?
この成績は開発者コミュニティにおいて大きな意見の分かれるところとなった。エンジニアのMax Rumpfを代表とする批判者は、Zoomが単にAPIを使って他人の成果を「外装」に過ぎず、実際のユーザーにとって意味がないベンチマークテストでスコアを稼ぐ行為であり、これは「他人の労働成果を盗む」行為であり、実質的な技術的貢献がないと指摘している。
一方、開発者である朱宏成のような観察者たちは、AI評価で勝つためには「モデル連携」が必須であると述べている。それはまるでデータコンペティションプラットフォームKaggleの優勝者が常にモデルの統合に依存しているように、単独で戦うよりも良い結果を得るための戦略だ。このようなアプローチは商業的に非常に賢く、高価な計算リソースへの投資を避けつつ、Zoomが異なるサプライヤー間で柔軟に切り替えることができ、サプライヤーに縛られることを完全に回避できる。
ランキングから製品へ:AI Companion3.0の実戦テスト
黄学東はこの成功をZoom戦略の検証として捉えている。Zoomの3億人のユーザーにとっては、より重要な対決は今後登場するAI Companion3.0で行われるだろう。48.1%という数字は、高等数学や哲学といった問題を含むHLEでは機械知能の前線を示しているが、ユーザーが関心を持つのは、何億もの人がそれを使用して会議を要約し、行動項目を抽出する際に、この「連携脳」が単一モデルよりも時間短縮され、正確さがあるかどうかだ。
