在人工智能領域競爭日益激烈的背景下,谷歌近日宣佈推出 Gemini2.0 Flash Thinking模型。這一多模態推理模型具備快速且透明的處理能力,能夠應對複雜問題。谷歌首席執行官桑達爾・皮查伊在社交媒體 X 上表示:“這是我們迄今爲止最具深度的模型。”  

image.png

根據開發者文檔,Gemini2的Flash Thinking比基礎版本的 Gemini2.0Flash模型具備更強的推理能力。新模型支持32,000個輸入標記(大約50到60頁文本),輸出響應可以達到8,000個標記。谷歌在其 AI 工作室的側邊面板中表示,這一模型特別適用於 “多模態理解、推理” 以及 “編碼”。  

開發者文檔:https://ai.google.dev/gemini-api/docs/thinking-mode?hl=zh-cn

目前關於模型的訓練過程、架構、許可和成本等詳細信息尚未公佈,但谷歌 AI 工作室顯示目前使用該模型每個標記的費用爲零。  

Gemini2.0的一個顯著特點是允許用戶通過下拉菜單訪問模型的逐步推理過程,這在 OpenAI 的 o1和 o1mini 等競爭模型中並不具備。這種透明的推理方式使得用戶能夠清楚瞭解模型得出結論的過程,有效解決了 AI 被視爲 “黑箱” 的問題。  

image.png

在一些簡單測試中,Gemini2.0能夠快速(在一到三秒內)正確回答一些複雜問題,例如計算 “草莓” 這個詞中字母 “R” 的數量。在另一項測試中,模型通過逐步分析整體數字和小數位,系統地比較了兩個小數(9.9與9.11)。  

第三方獨立分析機構 LM Arena 將 Gemini2.0Flash Thinking模型評爲所有大語言模型類別中的最佳表現模型。  

此外,Gemini2.0Flash Thinking模型還具備原生的圖像上傳與分析功能。相比於 OpenAI 的 o1,後者最初爲文本模型,並在後續進行了圖像和文件分析的擴展。當前,兩者都只能返回文本輸出。  

雖然 Gemini2.0Flash Thinking模型的多模態能力擴展了其潛在應用場景,但開發者需注意,該模型目前不支持與谷歌搜索的結合,也無法與其他谷歌應用及外部工具集成。通過Google AI Studio和 Vertex AI,開發者可以對這一模型進行實驗。  

GfM7t6GasAE2XUK.jpg

在日益競爭的 AI 市場中,Gemini2.0Flash Thinking模型可能標誌着問題解決模型的新紀元。憑藉處理多種數據類型、提供可視化推理和大規模運作的能力,它在推理 AI 市場中成爲 OpenAI o1系列及其他模型的重要競爭者。

劃重點:  

🌟 Gemini2.0Flash Thinking模型具備強大的推理能力,支持32,000個輸入標記和8,000個輸出標記。  

💡 該模型通過下拉菜單提供逐步推理,增強透明性,解決 AI “黑箱” 問題。  

🖼️ 具備原生圖像上傳與分析能力,擴展了多模態應用場景。