谷歌在生成 AI 領域的最新嘗試引起了廣泛關注。經過幾個月的平淡表現後,谷歌 Gemini 迅速走上了快車道,推出了新的實驗性語言模型 ——Gemini-Exp-1206。根據最新的 ChatArena 排行榜顯示,這款模型在衆多競爭對手中脫穎而出,成爲了生成 AI 的領跑者。

image.png

Gemini-Exp-1206在 LMArena 上獲得了最高的 Arena Score,達到了1379分,略高於 ChatGPT-4.0的1366分。這一得分表明,Gemini-Exp-1206在多項評估中表現出色,展現了其卓越的綜合能力。此外,與之前的 Gemini-Exp-1114相比,新模型也顯示出更強的性能。

image.png

那麼,什麼是 LMArena 呢?LMArena,也稱爲 Chatbot Arena,是一個用於評估大型語言模型的開源平臺。這個平臺由 LMSYS 和加州大學伯克利分校 SkyLab 共同開發,旨在通過實時測試和直接比較,支持社區對 LLM 性能的評估。

在排行榜中,Arena Score 代表了模型在多種任務中的平均表現,分數越高表示能力越強。儘管 GeminiExp-1206的分數高於 ChatGPT-4.0,但在投票數量上,ChatGPT-4.0依然遙遙領先,共獲得了21,929票,而 Gemini-Exp-1206則收穫了5052票。較高的投票數通常意味着更高的可靠性,因爲這表明該模型經過了更廣泛的測試。

另外,95% 置信區間的數據顯示,Gemini 的 CI 爲 ±10/-5,而 ChatGPT 的 CI 爲 ±4/-5。這表明 Gemini 的平均得分更高,但 ChatGPT-4.0在性能穩定性方面表現更佳。

值得一提的是,Gemini 實驗模型是尖端的原型設計,旨在進行測試和反饋。這些模型爲開發者提供了提前體驗谷歌最新 AI 進展的機會,同時展示了持續的創新。然而,這些實驗模型是臨時性的,可能隨時更換,並不適合用於生產環境。

如果您想要免費使用 Gemini-Exp-1206,只需前往谷歌 AI Studio,登錄後選擇創建提示,並在設置中將模型更改爲 Gemini Experimental1206,即可開始聊天。

image.png

儘管 Gemini-Exp-1206的結果相當引人注目,但仍需記住其實驗性質。未來的潛力還需時間來揭示,業界期待着這一強勁競爭者的穩定發佈。

項目入口:https://ai.google.dev/gemini-api/docs/models/experimental-models?hl=zh-cn

劃重點:

🌟 Gemini-Exp-1206在 LMArena 排行榜上取得了1379的高分,超越了 ChatGPT-4.0的1366分。  

🗳️ ChatGPT-4.0獲得的投票數達到21,929票,明顯高於 Gemini-Exp-1206的5052票,顯示出其可靠性。  

🔍 Gemini 實驗模型爲開發者提供了前所未有的 AI 體驗機會,但仍處於測試階段,不適合生產使用。