近日,一項由加州大學聖地亞哥分校認知科學系主導的研究爲人工智能領域帶來了里程碑式的突破:OpenAI最新模型GPT-4.5在標準圖靈測試中,以“人格扮演”方式首次實現了超越人類的表現,成爲目前最具類人對話能力的AI系統。這一成果不僅刷新了人們對AI語言能力的認知,也爲AI在社會智能領域的應用潛力打開了新的想象空間。

此次實驗選取了四款具有代表性的AI系統進行對比測試,包括經典的1960年代聊天機器人ELIZA、Meta AI研發的LLaMa-3.1-405B,以及OpenAI的GPT-4o和GPT-4.5。研究人員設計了兩組獨立的測試,每組由250名來自在線平臺(如Prolific)的參與者組成,總計500人。這些參與者涵蓋了不同的年齡、性別和教育背景,確保了樣本的多樣性。測試採用經典的三方圖靈測試形式:每位裁判在5分鐘內通過文本界面與兩個對話對象互動,其中一個是真實人類,另一個是被測試的AI系統,隨後裁判需判斷哪一方是人類。

image.png

實驗結果令人矚目。GPT-4.5在兩組測試中均以73%的通過率“被誤認爲人類”,超越了人類自身的勝率(通常在60%-70%之間),成爲首個在標準圖靈測試中真正意義上“通過”的AI模型。與之相比,GPT-4o的通過率略低,LLaMa-3.1-405B則在部分設定中接近甚至達到人類水平,而老牌系統ELIZA的表現則遠遠落後。研究人員特別指出,GPT-4.5在測試中展現出驚豔的語言自然度和情感豐富性,能夠根據裁判的語氣靈活調整回答,常被參與者描述爲“友好”或“真實”。

image.png

更值得關注的是,GPT-4.5不僅在語言流暢性上表現出色,還展現出一種“類人化社會智能”。研究團隊分析認爲,該模型能夠在短時交流中快速捕捉對話中的情感線索,並以符合人類社交期待的方式迴應,甚至在某些情境下超過了人類的表現。例如,當裁判表現出疑惑或情緒波動時,GPT-4.5能適時給予安慰或幽默的迴應,這種細膩的互動能力讓許多參與者誤以爲自己面對的是一個有血有肉的人。

image.png

相比之下,LLaMa-3.1-405B雖然在技術上同樣令人印象深刻,但在情感表達和語境適應性上略遜一籌。然而,其在特定設定下的表現已接近人類水平,顯示出開源模型在AI競賽中的潛力。而GPT-4o作爲GPT-4.5的前代,雖然能力不俗,但在人格化表現和動態調整方面與後者存在明顯差距。

image.png

業內專家指出,GPT-4.5的成功得益於其在訓練過程中融入了更復雜的人格扮演機制和對話策略。不同於傳統語言模型的“即興生成”,GPT-4.5似乎能夠在對話前形成某種“預判框架”,並根據實時反饋動態優化回答。這種能力讓它在短時交流中顯得格外“聰明”,甚至掩蓋了AI固有的機械痕跡。然而,這也引發了新的討論:圖靈測試是否仍是衡量AI智能的終極標準?一些學者認爲,GPT-4.5的成功更多依賴於模仿人類社交行爲,而非真正理解或自主思考。

無論如何,GPT-4.5的突破無疑爲AI技術的發展注入了新的活力。從教育輔導到心理陪伴,再到客戶服務,這一模型的類人對話能力或將催生更多貼近生活的應用場景。與此同時,其在測試中的高通過率也提醒人們,隨着AI越來越“像人”,如何辨別真實與虛擬、如何規範其使用,將成爲未來社會亟需面對的課題。

這項研究的發佈恰逢AI技術飛速迭代之際。GPT-4.5的亮相,不僅是OpenAI的一次技術勝利,更是對人類與機器關係的一次深刻叩問。正如一位參與者感嘆:“它讓我覺得自己在和一個朋友聊天——直到我意識到,這一切只是代碼的魔法。”在這場人與AI的對話博弈中,真正的考驗或許纔剛剛開始。

論文地址:https://arxiv.org/pdf/2503.23674