在最近的 Fiction.Live 基準測試中,Gemini2.5Pro 在理解和再現複雜故事和背景方面表現出色,領先於競爭對手 OpenAI 的 o3模型。這項測試遠超傳統的“大海撈針”式任務,專注於模型在海量上下文中處理深層語義和背景依賴信息的能力。
據測試數據顯示,在上下文窗口長度達到192,000個詞條(約14.4萬個單詞)時,o3模型性能急劇下滑,而 Gemini2.5Pro 的6月預覽版(preview-06-05)在同一條件下依然保持了超過90% 的準確率。
值得注意的是,OpenAI 的 o3模型在8K 代幣以下保持完美準確率,但當上下文擴展至16K~60K 後出現波動,最終在192K時“崩潰”;相比之下,Gemini2.5Pro 儘管在8K時略有下滑,卻能穩住表現直至192K。
儘管 Gemini2.5Pro 宣稱可支持高達100萬個標記的上下文窗口,目前的測試仍遠未觸及其理論極限。與此同時,o3的最大窗口爲200K,而 Meta 推出的 Llama4Maverick 則宣稱能處理 多達一千萬個詞條,但在實際任務中被指出忽略了大量重要信息,表現未達預期。
深度理解能力不能靠“堆參數”堆出來。
來自 DeepMind 的研究人員 Nikolay Savinov 指出,“信息越多並不等於更好”。他解釋,大上下文帶來的挑戰在於注意力機制的分配:關注某些信息時,勢必會忽略其他部分,反而降低整體表現。他建議用戶在使用模型處理大型文檔時,優先刪除無關頁面、縮減冗餘內容,以提升模型處理質量。
整體來看,Fiction.Live 基準測試爲語言模型能力評估提供了更真實、更貼近應用場景的測試方式。Gemini2.5Pro 在此次測試中展現了其在長文本理解上的強勁實力,也提示行業:未來的大模型競爭,不再僅是“誰的窗口大”,而是“誰用得更聰明”。