OpenAI、3種類のリアルタイム音声モデルをリリース GPT-5レベルの推論能力が実用化

人工知能の巨頭であるOpenAIは、再び音声インタラクションの技術的な境界を刷新し、3つの新しいリアルタイム音声モデル、GPT-Realtime-2、GPT-Realtime-TranslateおよびGPT-Realtime-Whisperを正式にリリースしました。この3つのモデルは現在、開発者向けにRealtime APIに統合されており、音声インタラクションにおける長年の課題である高い遅延、自然な中断ができないこと、多言語サポートが難しいなどの問題を根本的に解決することを目的としています。

今回のリリースの中心となるのは、GPT-Realtime-2です。これは現在、最もスマートなAI音声モデルであり、初めてGPT-5レベルの推論能力を持つ音声ツールです。従来の音声アシスタントとは異なり、会話が極めて自然で滑らかであることを保ちながら、リアルタイムでの複雑な論理的推論を行い、外部ツールを柔軟に呼び出し、ユーザーの途中介入や修正を正確に認識・処理できます。この突破は、今後の音声アシスタントが単なるコマンド実行者ではなく、マルチステップの複雑なタスクを処理できるリアルタイム協力パートナーになることを意味しています。

価格戦略においては、GPT-Realtime-2の音声入力料金は100万トークンあたり32ドル（約218元）で、出力料金は64ドル（約436元）と設定されています。一方、キャッシュ入力のコストは大幅に低下しており、わずか0.4ドルです。

コアの推論モデルに加え、他の2つの機能性モデルもそれぞれ特徴を持っています。GPT-Realtime-Translateは強力な翻訳性能を発揮し、70種類の入力言語と13種類の出力言語を即時変換することができ、会話者のペースにほぼ追いつくほどの速さで翻訳を行うことができます。これは国際会議など高要求なリアルタイムコミュニケーションの場面で活用できます。また、GPT-Realtime-Whisperは、極限まで流れるようなトランクリプションを追求しており、「音が人と一緒に動く」低遅延体験を実現し、会議記録やリアルタイム字幕の待機時間を大幅に短縮しています。これらの2つのモデルの料金体系はより柔軟で、それぞれ分単位で計算され、1分あたり0.034ドルと0.017ドルとなっています。

業界の分析では、OpenAIのこの一連の動きは、AI音声インタラクションが「単純な応答」から「深いリアルタイム理解」へと進化していることを示しており、これによりスマート時代における技術的リーダーシップをさらに強化しています。

オフィス効率の革命！ClaudeがMicrosoft 365と深く連携し、AIオフィスの任督二脈をオープンに

Anthropicは、Claude AIアシスタントをMicrosoft 365に深く統合し、有料ユーザー向けに公開しました。Excel、PowerPoint、Wordなどのオフィスソフトでウィンドウを切り替えることなく直接利用でき、アプリ間のスマートな連携処理により業務効率を向上させます。....

伝統を打ち破る！小型推論エンジンDeepSeek V4 Flashがリリース

DeepSeek V4Flashは、Metalプラットフォーム向けに設計された小型ローカル推論エンジンであり、DeepSeek V4Flashモデルに特化して最適化され、効率的で柔軟な推論体験を提供します。汎用エンジンとは異なり、ターゲット最適化により性能を最大化し、速度に加えて独自の思考モード設計を重視し、ローカル推論の新潮流をリードします。....

アリババ・チンワン AI サングラス S1 のアップグレード：アクティブなサービスと世界初の3D表示機能登場

アリババの千問AIメガネS1が大幅アップデート。天気や時間、スケジュールに基づくパーソナルリマインダー（傘の携帯提案など）を提供する能動的サービス機能を追加。さらに、タクシー呼び出し、即時購入、旅程計画などの生活サービス機能を搭載し、ユーザーの移動利便性を向上。....

OpenAIがCodex Chrome拡張機能をリリース　ブラウザ環境への深く統合

OpenAIが「Codex for Chrome」ブラウザ拡張機能をリリース。macOSとWindowsに対応。非侵入的に動作し、ブラウジングを妨げず、ブラウザ環境を活用したWebアプリテストやタブ間のコンテキスト取得が可能で、開発効率を向上させる。....

OpenAIがGPT-5.5-Cyberのプレビュー版をリリース、セキュリティチーム向けに限定公開

OpenAIは木曜日、GPT-5.5のサイバーセキュリティ専用版であるGPT-5.5-Cyberプレビュー版をリリース。審査済みのセキュリティチームのみが利用可能で、脆弱性識別、パッチ検証、マルウェア分析を効率化するため、セキュリティ制限を緩和した。AnthropicのClaude My発表に続く動き。....