OpenAI はこのほど、開発者により高度な音声アプリケーションの解決策を提供するための3つの新しいリアルタイム音声モデルを正式にリリースしました。これらのモデルは、それぞれ異なるアプリケーションシナリオに特化しています。GPT‑Realtime‑2、GPT‑Realtime‑Translate、および GPT‑Realtime‑Whisper です。

GPT‑Realtime‑2 は、GPT‑5レベルの推論能力を持つ最初の音声モデルです。このモデルは複雑な要求数に対応し、より自然な方法で会話を継続的に進行させることができます。これはリアルタイム音声インタラクションに特化して設計されており、ユーザーが質問や指示を出すとき、同時に推論を行い会話の連続性を維持することができます。さらに、GPT‑Realtime‑2 はツールを呼び出し、ユーザーの中断や修正に対応し、現在の状況に基づいてより適切な返答を行うことができます。

2番目のモデルである GPT‑Realtime‑Translate は、リアルタイム翻訳機能に焦点を当てています。これには70以上の入力言語と13種類の出力言語がサポートされています。このモデルは、話し手の速度にできるだけ近づけるように設計されており、「同声翻訳」に近い体験を提供します。これにより、言語を超えた通話、会議、またはライブ配信などのシナリオにおいて、ユーザーはよりスムーズにコミュニケーションできます。

GPT‑Realtime‑Whisper は、リアルタイムストリーミング音声認識モデルであり、低遅延の音声からテキストへの変換能力に注力しています。このモデルは、話し手が話している間に即座に変換を行い、さまざまなリアルタイム製品に高速かつ反応の良い性能をもたらします。ライブ字幕のリアルタイム生成や討論の流れに合わせた会議記録など、このモデルは幅広い応用可能性を示しています。

接続方法と価格について、OpenAI はこれらの3つの新モデルが Realtime API システムに組み込まれていると述べました。GPT‑Realtime‑2 の料金は、100万の音声入力トークンあたり32ドル、100万の音声出力トークンあたり64ドルです。GPT‑Realtime‑Translate の費用は1分あたり0.034ドル、GPT‑Realtime‑Whisper の価格は1分あたり0.017ドルです。開発者は Playground を介してこれらの新しいモデルを直接テストしたり、既存のアプリケーションに迅速に統合したりできます。

生成型AIがますますマルチモーダルとリアルタイム相互作用に向かう中、OpenAI が今回リリースした3つの音声モデルは、開発者に使いやすいツールを提供し、音声知能の応用革新を促進することになります。

ポイントを押さえましょう:  

🔊 GPT‑Realtime‑2 は高度な推論能力を持ち、より自然なリアルタイム会話を実現します。  

🌐 GPT‑Realtime‑Translate は多言語対応で、同声翻訳に近い翻訳体験を提供します。  

📝 GPT‑Realtime‑Whisper は低遅延の変換を実現し、ライブ配信や会議記録などのシナリオに適しています。