谷歌Gemini 2.0版正式發佈：2.0 Flash現已支持多模態輸出

谷歌公司及其母公司Alphabet的首席執行官桑達爾·皮查伊宣佈，公司推出了最新人工智能模型——Gemini2.0，這標誌着谷歌在構建通用AI助理領域邁出了重要一步。Gemini2.0在多模態輸入處理和原生工具使用方面展現了顯著進步，使得AI代理能夠更深入地理解周圍世界，並在用戶監督下代表用戶採取行動。

Gemini2.0基於其前身Gemini1.0和1.5開發，後者首次實現了原生多模態處理能力，能夠理解包括文本、視頻、圖像、音頻和代碼在內的多種信息類型。目前，已有數百萬開發者使用Gemini進行開發，推動谷歌重新構想其產品，包括服務20億用戶的7款產品，並創造新產品。NotebookLM便是多模態和長上下文能力的一個例證，受到了廣泛喜愛。

微信截圖_20241212080452.png

Gemini2.0的推出預示着谷歌進入了一個新的代理時代，該模型具備原生圖像和音頻輸出能力，以及原生工具使用能力。谷歌已經開始將Gemini2.0提供給開發者和受信任的測試者，並計劃快速將其整合到產品中，首先是Gemini和搜索。從即日起，Gemini2.0Flash實驗模型將向所有Gemini用戶開放。同時，谷歌還推出了名爲Deep Research的新功能，它使用先進的推理和長上下文能力，充當研究助理，代表用戶探索複雜主題並編制報告。該功能目前已在Gemini Advanced中提供。

搜索作爲受AI影響最大的產品之一，谷歌的AI概覽現已覆蓋10億人，使他們能夠提出全新的問題，迅速成爲谷歌最受歡迎的搜索功能之一。作爲下一步，谷歌將把Gemini2.0的先進推理能力帶入AI概覽，以解決更復雜的主題和多步驟問題，包括高級數學方程、多模態查詢和編碼。本週已開始限量測試，並計劃在明年初更廣泛地推出。谷歌還將繼續在未來一年將AI概覽帶到更多國家和語言。

谷歌還通過Gemini2.0的原生多模態能力展示了其代理研究的前沿成果。Gemini2.0Flash在1.5Flash的基礎上進行了改進，1.5Flash是迄今爲止最受開發者歡迎的模型，具有類似的快速響應時間。值得注意的是，2.0Flash甚至在關鍵基準測試中以兩倍的速度超越了1.5Pro。2.0Flash還帶來了新的能力。除了支持圖像、視頻和音頻等多模態輸入外，2.0Flash現在還支持多模態輸出，如與文本混合的原生生成圖像和可控制的多語言文本轉語音（TTS）音頻。它還可以原生調用工具，如谷歌搜索、代碼執行以及第三方用戶定義函數。

微信截圖_20241212080808.png

Gemini2.0Flash現在作爲實驗模型向開發者提供，通過谷歌AI Studio和Vertex AI的Gemini API，所有開發者都可以使用多模態輸入和文本輸出，而文本轉語音和原生圖像生成則提供給早期訪問合作伙伴。普通可用性將在1月份跟進，同時還會推出更多模型尺寸。

爲了幫助開發者構建動態和交互式應用，谷歌還發布了一個新的多模態實時API，該API具有實時音頻、視頻流輸入能力，並能夠使用多個組合工具。

從今天開始，全球的Gemini用戶可以通過在桌面和移動網頁上的模型下拉菜單中選擇它來訪問2.0Flash實驗的聊天優化版本，它將很快在Gemini移動應用中提供。明年初，谷歌將把Gemini2.0擴展到更多的谷歌產品。

谷歌Gemini 2.0版正式發佈：2.0 Flash現已支持多模態輸出

相關推薦

你的數據正在“餵養”AI：谷歌隱私設置靜默更新，如何守護個人信息？

性能碾壓對手！谷歌 Gemini 3.5 Pro 曝光：史詩級升級定檔 7 月 17 日

挑戰 Claude Fable 5：谷歌 Gemini 3.5 Pro 即將登場，推理能力再進化

谷歌跳票之後終定檔：Gemini 3.5 Pro七月硬剛DeepSeek V4，全新底座不再"擠牙膏"

桌面端 AI 再進化：Gemini Spark 助力 macOS 實現本地文件自動化管理