バルーン・インベストメント・カンファレンスで、イーロン・マスクは最新のAGIスケジュールを明らかにした。来年Q1にリリースされるGrok 5には「約10%の確率」で汎用人工知能が実現されるとし、これは彼が初めてAGIの確率を数値化して公表したものである。

モデル規模とデータ 

- パラメータ:6兆のMoE構造、スパース度70%、VRAM使用量はGPT-4oの約1.8倍  

- モーダル:テキスト、画像、音声、リアルタイム動画ストリームを統一エンコード、フレーム単位の遅延<120ms  

- データ:Xプラットフォームの毎日5億件の公開投稿+2億時間の動画ストリーム、サービス規約に基づきリアルタイムで訓練に再利用可能  

- 訓練クラスタ:10万台のH100(Memphisスーパーコンピュータ)、ピーク性能750PFLOPs、予定では2026年2月にプリトレーニングを終了

AGIの判定基準  

マスクは「リアルタイム動画理解=AGIのチケット」と定義している。モデルは動画を見ながら推論する必要があり、人間が行う視覚的なタスク(例えばライブ配信での車両修理や街並みの解釈)をこなさなければならない。Grok 5の内部テストでは300の視覚的推論タスクにおいて68%の通過率を記録しており、人間のベースライン75%に近づいている。

視覚能力のデモ 

現場で30秒のドローン飛行映像を再生し、Grok 5がリアルタイムで出力した内容は次の通り:①47種類の物体を識別;②交通量を推測;③最短の運転経路を提示;④前方の工事危険をアラート。すべてのプロセスで追加の微調整は行われなかった。

リスクと規制