OpenAIは最近、「GPT-Bidi-1」という次世代の双方向音声モデルを準備していることが明らかにされた。このモデルは、ChatGPTの音声モードを大幅にアップグレードすることを目的としており、技術的な重要な突破をもたらすものである。「GPT-Bidi-1」は、従来の「単一方向通話(モノラル)」の制約を完全に打ち破るため、双方向(Bidirectional)アーキテクチャを採用している。このモデルはシステムが同時に聞き取りと発話を可能にし、ユーザーの挿入や中断をリアルタイムで捉え、カクつきやフリーズせずに動的に意味出力を調整することができ、リアルタイム音声会話の自然さを大幅に向上させた。

QQ20260617-153315.jpg

現在の開発のポイントから見ると、OpenAIはWeb版とモバイル版でこのモデルのリリースのための基本コードを整備している。製品形態において、新機能がリリースされると、既存の高級音声モード(Advanced Voice Mode)と共存する予定で、ユーザーは「Bidi(最新)」モードに自由に切り替えることができる。また、このモデルはテキスト側の分級に基づいて、初めて音声側に「高(High)、中(Medium)、即時(Instant)」の3つの知能と速度の分級を導入しており、ユーザーが具体的なタスクに応じて相互作用の深さと反応速度のバランスを取れるようにしている。

QQ20260617-153446.jpg

今回の技術進化は、単なる音質やトーンの改善ではなく、OpenAIのマルチモーダル戦略における重要な補完となる。

これまで、OpenAIのテキストの大規模モデルは、より強力な推論能力を持つGPT-5.5世代まで進化しており、一方で音声大規模モデルは相対的に遅れており、マルチモーダル体験に断層が生じていた。GPT-Bidi-1の登場により、この推論能力のギャップを埋めることができるだけでなく、OpenAIが音声を次のAIの主要なインターフェースと考えているという戦略的な意図を示している。これは、その後の音声優先(Audio-first)のハードウェアデバイスや企業向け音声サポートツールの全面的な展開にとって重要な技術的基盤となる。