微軟和Salesforce聯合研究發現,即使是最先進的AI語言模型在長時間對話中也會出現嚴重的可靠性問題。當用戶逐步表達需求時,系統性能平均下降39%,這一發現對AI助手的實際應用提出了重要警示。
模擬真實交互揭示性能缺陷
研究團隊創建了名爲"分片"的測試方法,模擬用戶在實際對話中逐步明確需求的過程。與傳統的一次性提供完整信息不同,這種方法將任務分解爲多個步驟,更貼近真實使用場景。
測試結果令人震驚:AI模型的準確率從約90%暴跌至僅51%。從小型開源模型Llama-3.1-8B到大型商業系統GPT-4o,所有15個受測模型均出現這種急劇下降。
每個實驗涉及90到120條指令,這些指令被分解爲來自高質量數據集的較小子任務。
頂級模型同樣受影響
即便是研究中的頂級模型——Claude3.7Sonnet、Gemini2.5Pro和GPT-4.1——在多輪對話中的表現也比單輪對話差30%至40%。更令人擔憂的是,這些模型的一致性大幅降低,同一任務的最佳和最差表現差異可達50個百分點。
四大關鍵問題浮現
研究識別出AI模型在多輪對話中的四個核心問題:
- 過早結論:在掌握全部必要信息前匆忙做出判斷
- 過度依賴歷史:過分相信自己此前的回答,即使其中存在錯誤
- 信息忽略:忽視對話過程中的重要信息
- 過度詳述:提供過於詳細的回答,導致對信息缺口的錯誤假設
技術優化收效甚微
爲提高可靠性,研究團隊嘗試了多種技術改進,包括降低模型溫度設定以減少隨機性,以及讓AI重複用戶指令。然而,這些優化措施均未產生顯著效果。
研究發現,改變每步提供的細節程度同樣無濟於事。唯一可靠的解決方案是在對話開始時就提供所有必要信息。
大型語言模型經常在多步驟、未明確指定的對話中“迷失”,導致性能顯著下降。
能力與可靠性的分化
性能下降呈現兩個層面:模型基本能力僅下降約16%,但不可靠性卻飆升112%。在單輪任務中,能力更強的模型通常更可靠,但在多輪對話中,所有模型的可靠性都同樣糟糕,與其基線技能水平無關。
實用應對策略
基於研究結果,專家提出兩項實用建議:
對用戶: 當對話偏離主題時,與其試圖修正,不如重新開始新對話。在對話結束時要求AI總結所有需求,並以此作爲新對話的起點。
對開發者: 應更加重視多輪對話的可靠性開發。未來模型需要在指令不完整的情況下保持穩定表現,而非依賴特殊提示技巧或參數調整。
行業影響與展望
這項研究凸顯了AI助手在現實應用中面臨的重大挑戰。由於用戶通常通過漸進式對話表達需求,可靠性問題可能嚴重影響用戶體驗和AI系統的實際價值。
研究人員強調,可靠性與原始性能同等重要,特別是對於需要處理複雜、多步驟交互的現實世界AI助手而言。這一發現爲AI行業指明瞭重要的改進方向。