OpenAIは、独立した「音声モード」のエントリーポイントを廃止し、リアルタイム音声とビジュアル出力を直接ChatGPTのメインチャットウィンドウに統合することを発表しました。ユーザーは🎤を長押しすることで、地図/グラフ/画像を見ながら話すことができ、会話の文字起こしが同期して表示され、別のページに移動する必要がありません。

主要アップデート
- マルチモーダル一画面: 音声で質問する際、画面に関連するビジュアル結果(ルートマップ、データグラフ、商品画像など)がリアルタイムで表示され、自動的に文字起こしがスクロールされます
- インタラクションゼロブレイク: 連続して質問できます。モデルは音声での返答中に画面を更新し、平均遅延は300ms未満です
- 後悔ボタンオプション: 設定→音声→「没入型オーディオモード」で旧版の独立インターフェースに戻すことが可能です。純粋なオーディオの好みに対応しています
技術基盤
新しい音声はGPT-5.1-large+マルチモーダルビジュアルエンコーダーによって駆動されており、コンテキスト窓は100kトークンです。音声は端末側のVAD+クラウドASRで処理され、文字起こしの正確度は96%、12種類の言語をサポートしています。
リリースとカバレッジ
- 即時配信: Plus/Pro/Teamユーザーは全プラットフォームで利用可能、無料版は後日順次開放されます
- ハードウェア対応: iPhone15シリーズとPixel9に最適化されています。低電力モードではバッテリー持ちに与える影響は4%未満です
- API計画: 2026年第1四半期に開発者向けにRealtimeMultimodalインターフェースを開放し、サードパーティアプリ内でも同様の音声+ビジュアル機能を使用できるようにします
OpenAIは、今回の統合が「ChatGPT6.0体験」の第一歩であると述べています。今後はショッピング価格比較やグループ通話音声などのシーンを追加し、マルチモーダルの境界を継続的に拡大していく予定です。
