OpenAI、新世代の両方向音声モデル「GPT-Bidi-1」の発表準備を実施中

OpenAIは最近、「GPT-Bidi-1」という次世代の双方向音声モデルを準備していることが明らかにされた。このモデルは、ChatGPTの音声モードを大幅にアップグレードすることを目的としており、技術的な重要な突破をもたらすものである。「GPT-Bidi-1」は、従来の「単一方向通話（モノラル）」の制約を完全に打ち破るため、双方向（Bidirectional）アーキテクチャを採用している。このモデルはシステムが同時に聞き取りと発話を可能にし、ユーザーの挿入や中断をリアルタイムで捉え、カクつきやフリーズせずに動的に意味出力を調整することができ、リアルタイム音声会話の自然さを大幅に向上させた。

現在の開発のポイントから見ると、OpenAIはWeb版とモバイル版でこのモデルのリリースのための基本コードを整備している。製品形態において、新機能がリリースされると、既存の高級音声モード（Advanced Voice Mode）と共存する予定で、ユーザーは「Bidi（最新）」モードに自由に切り替えることができる。また、このモデルはテキスト側の分級に基づいて、初めて音声側に「高（High）、中（Medium）、即時（Instant）」の3つの知能と速度の分級を導入しており、ユーザーが具体的なタスクに応じて相互作用の深さと反応速度のバランスを取れるようにしている。

今回の技術進化は、単なる音質やトーンの改善ではなく、OpenAIのマルチモーダル戦略における重要な補完となる。

これまで、OpenAIのテキストの大規模モデルは、より強力な推論能力を持つGPT-5.5世代まで進化しており、一方で音声大規模モデルは相対的に遅れており、マルチモーダル体験に断層が生じていた。GPT-Bidi-1の登場により、この推論能力のギャップを埋めることができるだけでなく、OpenAIが音声を次のAIの主要なインターフェースと考えているという戦略的な意図を示している。これは、その後の音声優先（Audio-first）のハードウェアデバイスや企業向け音声サポートツールの全面的な展開にとって重要な技術的基盤となる。

元インド情報技術大手のスタートアップがAIでITサービス業界を変革しようとする

元インフォシスCEOビシャル・シッカ氏がAI活用のITサービス企業Hang Ten Systemsを創業。AI駆動のソフトウェア開発・自動化で企業の継続的構築・変更・運用を支援。シードラウンドでMayfield主導、Aramco Ventures参加の3200万ドルを調達。....

3D生成分野における中国のスター企業：ヨウモウテクノロジーが数億円の資金調達を実現、技術力がNVIDIAから注目される

影眸科技が数億元の融資を獲得、凱輝基金などがリード投資。3D生成分野が資本の注目を集める。00後チームは「世界モデル」の新段階を目指し、AIが理解から創造へと進化。実用的な3Dデジタルアセットの実用化を推進し、国際競争力を示す。....

マルチモデル切り替えの壁を打破！グーグルがコンピュータ操作を原生でGemini 3.5 Flashに組み込む

Google DeepMindがGemini 3.5 Flashにネイティブなコンピューター操作能力を統合。単一モデルでブラウザ、スマホ、デスクトップを横断し画面を見て自律操作するAIエージェントを構築可能に。モデル切り替えや文脈受け渡しが不要になり、クロスプラットフォームの長いタスク実行を簡素化。....

OpenAI、新世代の両方向音声モデル「GPT-Bidi-1」の発表準備を実施中

関連推奨

近400の地元紙がOpenAIとマイクロソフトを訴え、著作権の侵害を指摘

志願の入力アドバイザーが到着：高考の得点発表から3日、大規模モデルが500万の受験生を安心させた

元インド情報技術大手のスタートアップがAIでITサービス業界を変革しようとする

3D生成分野における中国のスター企業：ヨウモウテクノロジーが数億円の資金調達を実現、技術力がNVIDIAから注目される

マルチモデル切り替えの壁を打破！グーグルがコンピュータ操作を原生でGemini 3.5 Flashに組み込む