人工知能の巨頭であるOpenAIは、再び音声インタラクションの技術的な境界を刷新し、3つの新しいリアルタイム音声モデル、GPT-Realtime-2、GPT-Realtime-TranslateおよびGPT-Realtime-Whisperを正式にリリースしました。この3つのモデルは現在、開発者向けにRealtime APIに統合されており、音声インタラクションにおける長年の課題である高い遅延、自然な中断ができないこと、多言語サポートが難しいなどの問題を根本的に解決することを目的としています。
今回のリリースの中心となるのは、GPT-Realtime-2です。これは現在、最もスマートなAI音声モデルであり、初めてGPT-5レベルの推論能力を持つ音声ツールです。従来の音声アシスタントとは異なり、会話が極めて自然で滑らかであることを保ちながら、リアルタイムでの複雑な論理的推論を行い、外部ツールを柔軟に呼び出し、ユーザーの途中介入や修正を正確に認識・処理できます。この突破は、今後の音声アシスタントが単なるコマンド実行者ではなく、マルチステップの複雑なタスクを処理できるリアルタイム協力パートナーになることを意味しています。
価格戦略においては、GPT-Realtime-2の音声入力料金は100万トークンあたり32ドル(約218元)で、出力料金は64ドル(約436元)と設定されています。一方、キャッシュ入力のコストは大幅に低下しており、わずか0.4ドルです。
コアの推論モデルに加え、他の2つの機能性モデルもそれぞれ特徴を持っています。GPT-Realtime-Translateは強力な翻訳性能を発揮し、70種類の入力言語と13種類の出力言語を即時変換することができ、会話者のペースにほぼ追いつくほどの速さで翻訳を行うことができます。これは国際会議など高要求なリアルタイムコミュニケーションの場面で活用できます。また、GPT-Realtime-Whisperは、極限まで流れるようなトランクリプションを追求しており、「音が人と一緒に動く」低遅延体験を実現し、会議記録やリアルタイム字幕の待機時間を大幅に短縮しています。これらの2つのモデルの料金体系はより柔軟で、それぞれ分単位で計算され、1分あたり0.034ドルと0.017ドルとなっています。
業界の分析では、OpenAIのこの一連の動きは、AI音声インタラクションが「単純な応答」から「深いリアルタイム理解」へと進化していることを示しており、これによりスマート時代における技術的リーダーシップをさらに強化しています。
