谷歌公司及其母公司Alphabet的首席執行官桑達爾·皮查伊宣佈,公司推出了最新人工智能模型——Gemini2.0,這標誌着谷歌在構建通用AI助理領域邁出了重要一步。Gemini2.0在多模態輸入處理和原生工具使用方面展現了顯著進步,使得AI代理能夠更深入地理解周圍世界,並在用戶監督下代表用戶採取行動。

Gemini2.0基於其前身Gemini1.0和1.5開發,後者首次實現了原生多模態處理能力,能夠理解包括文本、視頻、圖像、音頻和代碼在內的多種信息類型。目前,已有數百萬開發者使用Gemini進行開發,推動谷歌重新構想其產品,包括服務20億用戶的7款產品,並創造新產品。NotebookLM便是多模態和長上下文能力的一個例證,受到了廣泛喜愛。

微信截圖_20241212080452.png

Gemini2.0的推出預示着谷歌進入了一個新的代理時代,該模型具備原生圖像和音頻輸出能力,以及原生工具使用能力。谷歌已經開始將Gemini2.0提供給開發者和受信任的測試者,並計劃快速將其整合到產品中,首先是Gemini和搜索。從即日起,Gemini2.0Flash實驗模型將向所有Gemini用戶開放。同時,谷歌還推出了名爲Deep Research的新功能,它使用先進的推理和長上下文能力,充當研究助理,代表用戶探索複雜主題並編制報告。該功能目前已在Gemini Advanced中提供。

搜索作爲受AI影響最大的產品之一,谷歌的AI概覽現已覆蓋10億人,使他們能夠提出全新的問題,迅速成爲谷歌最受歡迎的搜索功能之一。作爲下一步,谷歌將把Gemini2.0的先進推理能力帶入AI概覽,以解決更復雜的主題和多步驟問題,包括高級數學方程、多模態查詢和編碼。本週已開始限量測試,並計劃在明年初更廣泛地推出。谷歌還將繼續在未來一年將AI概覽帶到更多國家和語言。

谷歌還通過Gemini2.0的原生多模態能力展示了其代理研究的前沿成果。Gemini2.0Flash在1.5Flash的基礎上進行了改進,1.5Flash是迄今爲止最受開發者歡迎的模型,具有類似的快速響應時間。值得注意的是,2.0Flash甚至在關鍵基準測試中以兩倍的速度超越了1.5Pro。2.0Flash還帶來了新的能力。除了支持圖像、視頻和音頻等多模態輸入外,2.0Flash現在還支持多模態輸出,如與文本混合的原生生成圖像和可控制的多語言文本轉語音(TTS)音頻。它還可以原生調用工具,如谷歌搜索、代碼執行以及第三方用戶定義函數。

微信截圖_20241212080808.png

Gemini2.0Flash現在作爲實驗模型向開發者提供,通過谷歌AI Studio和Vertex AI的Gemini API,所有開發者都可以使用多模態輸入和文本輸出,而文本轉語音和原生圖像生成則提供給早期訪問合作伙伴。普通可用性將在1月份跟進,同時還會推出更多模型尺寸。

爲了幫助開發者構建動態和交互式應用,谷歌還發布了一個新的多模態實時API,該API具有實時音頻、視頻流輸入能力,並能夠使用多個組合工具。

從今天開始,全球的Gemini用戶可以通過在桌面和移動網頁上的模型下拉菜單中選擇它來訪問2.0Flash實驗的聊天優化版本,它將很快在Gemini移動應用中提供。明年初,谷歌將把Gemini2.0擴展到更多的谷歌產品。