OpenAI は最近、世界中の開発者向けに2つの重要なAPIの更新をリリースしました。これらの更新により、AIエージェントの音声インタラクションおよび複雑なタスクフローにおけるパフォーマンスが大幅に向上します。

モデル面では、新規のリアルタイムモデルgpt-realtime-1.5とその対応するオーディオモデルが登場しました。このモデルの主な目的は、音声コマンドの信頼性を高めることです。OpenAIの内部テストデータによると、新しいモデルは数字やアルファベットの転記精度が約10%5%7%

OpenAI

アーキテクチャ面では、Responses APIは現在、WebSocketプロトコルをサポートしています。これはAI通信モードの大きな変化を示しています。従来の方法では、各リクエストごとに完全なコンテキストを再送信する必要がありました。一方で、WebSocketは開発者が永続的な接続を確立できるようにし、システムは新しいデータが生成されたときにのみ増分的に送信します。

OpenAIは、頻繁に大量のツールを呼び出す複雑なAIエージェントにとって、この改善が特に重要であると指摘しています。これにより、実行速度が直接