OpenAIと対立：グーグルのGemini 2.5のリアルタイム音声性能が首位を記録。関数呼び出しの正確度は71.5%

AIbaseの報道によると、グーグルは今週、ネイティブ音声モデル「Gemini2.5Flash Native Audio」に大きなアップデートを発表しました。このアップデートは、AIとのインタラクションを単なる「テキストから音声への変換」から、本物の人間のようなリアルタイムコミュニケーションへと進化させることを目的としています。

今回のアップデートのコアとなるのは「ネイティブ処理能力」です。従来のAIが音声をまずテキストに変換してから処理するという手間のかかるプロセスとは異なり、このモデルは音声中のトーン、感情、および間の取り方を直接認識できるため、より自然でスムーズな会話が可能になります。

グーグルの大規模モデルGemini

グーグルのデータによると、新バージョンは開発者からの指示に従う率が84％から90％に上昇し、複数ステップのワークフローを処理する際にはより高い正確性を示しています。音声ベンチマーキングのComplexFuncBenchにおいて、関数呼び出しの正確率は71.5％に達し、OpenAIのgpt-realtime（66.5％）を上回り、リアルタイム音声エージェント（Live Voice Agents）分野での強力な競争力を示しています。

現在、この技術はGoogle AI Studio、Vertex AI、Gemini Live、およびSearch Liveに完全に統合されています。開発者は現在、Gemini APIを通じてこのアップグレードされたモデルを体験でき、そのより一貫性のある性能とマルチラウンド対話記憶機能を利用して、より信頼性があり、感情を感知できるAIアシスタントを構築することができます。

GoogleマップにGeminiが深く統合：歩行と自転車で音声ナビゲーションの時代へ

2026年1月30日、GoogleマップはGeminiアシスタントを基盤とした歩行および自転車用ナビゲーション機能をリリースしました。この機能により、AI音声インタラクションは自動車のシーンから非動力移動に拡張されました。この機能は、ユーザーがスマホをチェックする手間を一切かけずに、助手のような即時の音声支援を提供することを目的としています。歩行や自転車に乗っているときでも、音声で現在地や道路状況などの情報をリアルタイムで確認できます。

一枚のセルフィーで全身の試着が可能に！グーグルAI仮想試着機能が大幅アップデート

グーグルはAI仮想試着機能をアップデートし、ユーザーは1枚のセルフィーをアップロードするだけで、システムがNano Bananaモデルを使ってスマートに全身の輪郭を生成し、迅速な仮想試着を実現します。新しい機能ではサイズを入力でき、複数のポーズでの試着効果を生成できます。

青島が国内初の全モードリアルタイム相互作用大モデル「VisualGPT」を発表、見るものすべてを即座に実現するAI体験を構築

中国初の全モーダル対話型視覚言語モデル「VisualGPT」が青島で発表。画像・動画をアップロードし、直接指定して質問可能で、秒単位で回答・コード・3Dシーンを生成。同時にAIエージェント訓練プラットフォームと計算リソースを開放し、AI対話を視覚的インターフェースでの即時相互作用段階へ推進。....

OpenAIと対立：グーグルのGemini 2.5のリアルタイム音声性能が首位を記録。関数呼び出しの正確度は71.5%

関連推奨

GoogleマップにGeminiが深く統合：歩行と自転車で音声ナビゲーションの時代へ

一枚のセルフィーで全身の試着が可能に！グーグルAI仮想試着機能が大幅アップデート

Gemini TTS 2.5が正式リリース：Googleが感情表現対応の音声を提供 24言語+マルチキャラクター一括切り替え

青島が国内初の全モードリアルタイム相互作用大モデル「VisualGPT」を発表、見るものすべてを即座に実現するAI体験を構築

Google Flowにナノバナナモデルを統合し、1クリックで動画素材を抽出