谷歌升級 Gemini2.5Flash Native Audio 提升語音助手錶現

谷歌最近發佈了 Gemini2.5Flash Native Audio 的更新，顯著增強了其語音助手的功能。這一版本旨在更好地處理複雜的工作流程，提高執行用戶指令的準確性，同時使對話更加自然流暢。根據谷歌的反饋，新版本在開發者指令的遵循率上從84% 提升至90%，這表明語音助手在理解和執行用戶請求方面有了顯著進步。

在多步驟對話的質量上，更新也帶來了明顯改善。用戶在與語音助手互動時，將體驗到更流暢的溝通。這種提升使得助手能夠更好地適應複雜的詢問和任務，使用戶感受到更高效的服務。

谷歌還透露，更新後的音頻模型在 ComplexFuncBench 基準測試中，函數調用的準確率達到了71.5%，相比之下，OpenAI 的 gpt-realtime 則爲66.5%。不過需要指出的是，谷歌在測試中可能並未使用 OpenAI 最近發佈的最新版本。

此次更新已經在 Google AI Studio、Vertex AI、Gemini Live 和 Search Live 中上線，Google Cloud 的客戶也開始使用這項新技術。開發者們可以通過 Gemini API 對模型進行測試，進一步探索其潛力。

這次的更新不僅僅是功能的提升，也反映出谷歌在人工智能領域不斷進步的決心和努力，爲用戶提供更好的體驗。

劃重點:
🌟 更新後的語音助手在遵循用戶指令方面的準確率從84% 提升至90%。
📈 新版本在 ComplexFuncBench 基準測試中，函數調用準確率達到71.5%。
💻 開發者可通過 Gemini API 對新模型進行測試，體驗其改進的功能。

美國企業“棄用”頭部AI：中國模型憑藉高性價比突圍

近期全球AI市場出現新動態：多家美國頭部AI廠商調整定價，促使美國企業轉向更具成本效益的方案。中國大模型憑藉高性價比加速進入美國企業應用鏈。數據顯示，自2月8日以來，美國企業調用DeepSeek、智譜GLM等國產模型的佔比顯著增長，尤其通過OpenRouter等聚合平臺表現突出。

具身智能新突破：螞蟻集團開源LingBot-Vision，讓機器人擁有“空間感”

螞蟻集團Robbyant開源LingBot-Vision模型家族，通過自監督視覺Transformer與創新“邊界建模”，在密集空間感知任務上表現卓越，多項指標超越數倍參數的大模型，突破了現有視覺基礎模型偏重物體識別的侷限，讓機器人精準感知物理空間成現實。

谷歌升級 Gemini2.5Flash Native Audio 提升語音助手錶現

相關推薦

Steam玩家對AI沒那麼抗拒：43%表示可以接受，僅8%絕對不碰

美國企業“棄用”頭部AI：中國模型憑藉高性價比突圍

具身智能新突破：螞蟻集團開源LingBot-Vision，讓機器人擁有“空間感”

Anthropic紐約大擴軍：租賃曼哈頓 16 層辦公樓，員工規模翻番至 1000 人

告別雲端焦慮：本地優先的桌面 AI 助手 Rowboat 如何重塑你的工作臺？

​谷歌升級 Gemini2.5Flash Native Audio 提升語音助手錶現

相關推薦

Steam玩家對AI沒那麼抗拒：43%表示可以接受，僅8%絕對不碰

美國企業“棄用”頭部AI：中國模型憑藉高性價比突圍

具身智能新突破：螞蟻集團開源LingBot-Vision，讓機器人擁有“空間感”

Anthropic紐約大擴軍：租賃曼哈頓 16 層辦公樓，員工規模翻番至 1000 人

告別雲端焦慮：本地優先的桌面 AI 助手 Rowboat 如何重塑你的工作臺？

谷歌升級 Gemini2.5Flash Native Audio 提升語音助手錶現