最近,劍橋大學等團隊發表了一篇重磅論文,揭示了大模型(LLM)們的真實面目,深入剖析了當前大語言模型(LLM)的實際表現,結果令人震驚 —— 這些被寄予厚望的AI模型,在很多基本任務上的表現遠不如人們想象的那樣出色。

這項研究對包括o1-preview在內的多個前沿模型進行了全面評測。結果顯示,AI模型與人類在理解能力上存在顯著差異。令人意外的是,模型在人類認爲複雜的任務上表現出色,卻在簡單問題上頻頻失誤。這種反差讓人不禁懷疑,這些AI是否真的理解了任務本質,還是僅僅在"拼命裝聰明"。

image.png

更令人驚訝的是,提示工程(Prompt Engineering)這一被認爲能夠提升AI性能的技術,似乎並不能有效解決模型的根本問題。研究中發現,即使是在簡單的拼字遊戲中,模型也會出現令人啼笑皆非的錯誤。比如,能夠正確拼出"electroluminescence"這樣複雜的詞,卻在"my"這樣簡單的字謎上給出"mummy"這樣的錯誤答案。

image.png

研究團隊對32個不同的大模型進行了評測,結果顯示這些模型在應對不同難度任務時的表現極不穩定。在複雜任務上,它們的準確率遠低於人類預期。更糟糕的是,這些模型似乎在還沒有完全掌握簡單任務的情況下就開始挑戰更高難度的任務,導致頻繁出錯。

image.png

另一個值得關注的問題是模型對提示詞的高度敏感性。研究發現,許多模型在沒有精心設計的提示詞情況下,甚至無法正確完成簡單任務。同一任務下,僅僅改變提示詞就可能導致模型表現天差地別,這種不穩定性給實際應用帶來了巨大挑戰。

更令人擔憂的是,即使經過人類反饋強化學習(RLHF)的模型,其可靠性問題仍然沒有得到根本解決。在複雜應用場景中,這些模型往往表現得過於自信,但錯誤率卻大幅增加。這種情況可能導致用戶在不知情的情況下接受錯誤結果,造成嚴重的判斷失誤。

這項研究無疑給AI領域潑了一盆冷水,特別是對比兩年前AI界"諾貝爾"Ilya Sutskever的樂觀預言。他曾信心滿滿地表示,隨着時間推移,AI的表現將逐漸符合人類期待。然而,現實卻給出了截然不同的答案。

這項研究猶如一面鏡子,照出了當前大模型存在的諸多短板。儘管我們對AI的未來充滿期待,但這些發現提醒我們需要對這些"大聰明"們保持警惕。AI的可靠性問題亟待解決,未來的發展道路仍然漫長。

這項研究不僅揭示了AI技術發展的現狀,也爲未來的研究方向提供了重要參考。它提醒我們,在追求AI能力提升的同時,更要關注其穩定性和可靠性。未來的AI研究可能需要更多地聚焦於如何提高模型的一致性表現,以及如何在簡單任務和複雜任務之間找到平衡。

參考資料:

https://docs.google.com/document/u/0/d/1SwdgJBLo-WMQs-Z55HHndTf4ZsqGop3FccnUk6f8E-w/mobilebasic?_immersive_translate_auto_translate=1