AIbaseの報道によると、グーグルは今週、ネイティブ音声モデル「Gemini2.5Flash Native Audio」に大きなアップデートを発表しました。このアップデートは、AIとのインタラクションを単なる「テキストから音声への変換」から、本物の人間のようなリアルタイムコミュニケーションへと進化させることを目的としています。

今回のアップデートのコアとなるのは「ネイティブ処理能力」です。従来のAIが音声をまずテキストに変換してから処理するという手間のかかるプロセスとは異なり、このモデルは音声中のトーン、感情、および間の取り方を直接認識できるため、より自然でスムーズな会話が可能になります。

グーグルの大規模モデルGemini

グーグルのデータによると、新バージョンは開発者からの指示に従う率が84%から90%に上昇し、複数ステップのワークフローを処理する際にはより高い正確性を示しています。音声ベンチマーキングのComplexFuncBenchにおいて、関数呼び出しの正確率は71.5%に達し、OpenAIのgpt-realtime(66.5%)を上回り、リアルタイム音声エージェント(Live Voice Agents)分野での強力な競争力を示しています。

現在、この技術はGoogle AI Studio、Vertex AI、Gemini Live、およびSearch Liveに完全に統合されています。開発者は現在、Gemini APIを通じてこのアップグレードされたモデルを体験でき、そのより一貫性のある性能とマルチラウンド対話記憶機能を利用して、より信頼性があり、感情を感知できるAIアシスタントを構築することができます。