OpenAI は、本格的に生産環境向けに「リアルタイム API」をリリースし、会話技術分野で重要な一歩を踏み出しました。この API は、カスタマーサポートや教育、個人の生産性向上などの実際的な用途のために音声アシスタントを開発する企業や開発者を対象としており、そのコアコンポーネントは新しく登場したGPT-Realtimeモデルです。このモデルは従来のテキスト変換ステップを必要とせず、直接音声を生成および処理できるため、より高速で自然な会話を実現します。
コア機能とパフォーマンスの大幅な向上
新たな GPT-Realtime モデルは技術面で多くの突破を遂げました。現在では笑い声などの非言語的サインを捉え、理解でき、一つの文の中で複数の言語をスムーズに切り替えることができ、指示に応じてトーンを調整できます。例えば、「フレンチな親しみやすい口調で」または「迅速かつ専門的に」話すように指示できます。さらに、2つの新しい音声:Cedar と Marinが追加され、既存の音声も最適化され、ユーザー体験がさらに向上しています。
ベンチマークテストにおいて、GPT-Realtime は優れた性能を示しました。Big Bench Audio での正確度は82.8%(前回の65.6%より高い)で、MultiChallenge では30.5%(前回の20.6%より高い)、ComplexFuncBench では66.5%(前回の49.7%より高い)となっています。これらのデータは、新モデルが複雑な指示や多言語タスクの処理において顕著な進歩を遂げていることを示しています。

統合の改善とコストの削減
新版 API はツールの統合を簡素化し、モデルが正しいツールとパラメータを信頼性高く選択・使用できるようにしました。開発者は now SIP およびリモート MCP サーバーを通じて外部サービスに接続し、再利用可能なプロンプトを使用して異なる設定を保存できます。
また、画像入力機能も導入されました。ユーザーは会話中にスクリーンショットや写真を送信でき、モデルはそれらの内容を参照し理解できます。例えば、テキストを読み取るか、関連する質問に答えることができます。開発者はモデルが見ることができる内容の範囲を柔軟に制御できます。
コスト管理については、新 API はトークン制限を設定し、長時間の会話を短縮できるようにし、GPT-Realtime の価格も20% 削減
セキュリティとプライバシー:保障策とユーザーの選択肢
OpenAI は、この API が政策に違反する会話を検出し、終了させることができると強調していますが、同時に開発者が追加のセキュリティ対策を自ら追加すべきであるとも述べています。データのプライバシーに関しては、EUユーザーがEU内でデータを保存することを選択できるオプションを提供しており、企業ユーザー向けには特別なプライバシールールが設定されており、データの安全とコンプライアンスを確保しています。
