記事本文

ChatGPTが音声をメイン画面に導入：話しながら画像を見ながら、音声をリアルタイムで変換し、一括して後悔して旧バージョンに戻れる

公開AI二ュ-ス

時間 :Nov 26, 2025

読む :1分

OpenAIは、独立した「音声モード」のエントリーポイントを廃止し、リアルタイム音声とビジュアル出力を直接ChatGPTのメインチャットウィンドウに統合することを発表しました。ユーザーは🎤を長押しすることで、地図/グラフ/画像を見ながら話すことができ、会話の文字起こしが同期して表示され、別のページに移動する必要がありません。

主要アップデート

- マルチモーダル一画面: 音声で質問する際、画面に関連するビジュアル結果（ルートマップ、データグラフ、商品画像など）がリアルタイムで表示され、自動的に文字起こしがスクロールされます

- インタラクションゼロブレイク: 連続して質問できます。モデルは音声での返答中に画面を更新し、平均遅延は300ms未満です

- 後悔ボタンオプション: 設定→音声→「没入型オーディオモード」で旧版の独立インターフェースに戻すことが可能です。純粋なオーディオの好みに対応しています

技術基盤

新しい音声はGPT-5.1-large＋マルチモーダルビジュアルエンコーダーによって駆動されており、コンテキスト窓は100kトークンです。音声は端末側のVAD＋クラウドASRで処理され、文字起こしの正確度は96%、12種類の言語をサポートしています。

リリースとカバレッジ

- 即時配信: Plus/Pro/Teamユーザーは全プラットフォームで利用可能、無料版は後日順次開放されます

- ハードウェア対応: iPhone15シリーズとPixel9に最適化されています。低電力モードではバッテリー持ちに与える影響は4%未満です

- API計画: 2026年第1四半期に開発者向けにRealtimeMultimodalインターフェースを開放し、サードパーティアプリ内でも同様の音声＋ビジュアル機能を使用できるようにします

OpenAIは、今回の統合が「ChatGPT6.0体験」の第一歩であると述べています。今後はショッピング価格比較やグループ通話音声などのシーンを追加し、マルチモーダルの境界を継続的に拡大していく予定です。

OpenAIがデータ保存領域を拡張し、企業がデータホスティング場所を選択できるようにする

OpenAIがデータ保存地域の選択肢を拡大し、企業や教育機関が欧州を含む地域を選べるように。これにより、ChatGPT導入時の法規制対応が容易になり、データ駐留の重要性を強調。....

Nov 26, 2025

77.7k

メイドゥーWOWService技術報告が公開：10％のラベル付きデータで伝統的な効果に達する。マルチエージェント協調によりカスタマーサティスファクションが12％向上

美团がWOWService大模型対話システム白書を発表、スマートカスタマーサービスに全面導入。データと知識の二重駆動及び4段階トレーニング体系により、複雑なシナリオで解決率9%、満足度12%向上。トレーニングデータ量は従来比10%。96%の正確性を達成する業務規則と対話ログの連携学習、マルチエージェント協調を核心とする。....

Nov 26, 2025

75.8k

Perplexity、AIショッピングアシストをリリースし、ユーザーのショッピング体験を向上

Perplexity社が無料AIショッピングアシスタントを米国でリリース。商品情報入力と対話で推薦を最適化し、ホリデーシーズン向けにパーソナライズされた買い物体験を提供。ChatGPTと同様の機能で、商品検索を効率化。....

Nov 26, 2025

84.2k

OpenAI と Perplexity が AI ショッピングの垂直分野に進出、スタートアップ企業は課題と機会に直面

OpenAIとPerplexityがAIショッピングアシスタントを発表。チャットボットに統合され、テキストや画像で商品検索・価格比較が可能に。1兆円規模のEC市場へ参入。....

Nov 26, 2025

97.4k

OpenAI ChatGPTのアップグレード：音声とテキストをスムーズに統合し、マルチモーダルなインタラクションを実現

OpenAIはChatGPTの音声モードをメイン画面に統合。音声会話と地図・画像などの視覚情報をリアルタイム表示し、文字起こしも自動生成。以前は手動切り替えが必要だったが、現在はシームレスに利用可能。....

Nov 26, 2025

105.7k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

ChatGPTが音声をメイン画面に導入：話しながら画像を見ながら、音声をリアルタイムで変換し、一括して後悔して旧バージョンに戻れる

関連推奨

OpenAIがデータ保存領域を拡張し、企業がデータホスティング場所を選択できるようにする

メイドゥーWOWService技術報告が公開：10％のラベル付きデータで伝統的な効果に達する。マルチエージェント協調によりカスタマーサティスファクションが12％向上

Perplexity、AIショッピングアシストをリリースし、ユーザーのショッピング体験を向上

OpenAI と Perplexity が AI ショッピングの垂直分野に進出、スタートアップ企業は課題と機会に直面

OpenAI ChatGPTのアップグレード：音声とテキストをスムーズに統合し、マルチモーダルなインタラクションを実現