谷歌DeepMind最新推出的Gemini實驗版本(Exp1114)在Chatbot Arena平臺上取得了令人矚目的成績。經過一週多的社區測試,累計超過6000票的數據顯示,這款新模型以顯著優勢超越競品,在多個關鍵領域展現出驚人實力。
在總體評分上,Gemini-Exp-1114以超出40分的優異成績與GPT-4-latest並列第一,超越了此前領先的GPT-4-preview版本。更令人驚歎的是,該模型在數學、複雜提示和創意寫作等核心領域全面登頂,展現出極強的綜合實力。
具體來看,Gemini-Exp-1114的進步令人印象深刻:
在總排名中從第3名一舉躍升至榜首
數學能力評測從第3名升至第1名
複雜提示處理從第4名攀升至第1名
創意寫作表現從第2名進步到第1名
視覺處理能力同樣位居榜首
編程水平也從第5名提升至第3名
Google AI Studio已正式上線這一新版本,供用戶實際體驗。不過,社區也對一些具體問題表示關注,比如1000個token的限制是否仍然存在,以及如何處理超長文本輸出等實際應用問題。
業內分析認爲,這次突破性進展顯示出谷歌在AI領域的長期投入開始收穫成果。有趣的是,模型在風格控制方面維持第4名的排名,這可能暗示開發團隊主要採用了新的後訓練方法,而非對預訓練模型進行改動。
這一重大突破也引發了對行業格局的討論。OpenAI此前常在競爭對手發佈重要更新時推出新產品,但這次谷歌的進步幅度之大,令業界爲之側目。有觀點認爲,這可能預示着Gemini2的到來,谷歌在大模型領域的競爭力正在顯著提升。