在人工智能的發展歷程中,圖靈測試一直是一個重要的里程碑。最近,聖地亞哥加州大學認知科學系的研究人員對GPT-4進行了一次圖靈測試的復刻實驗,結果令人矚目。

他們招募了500名參與者,與四個代理人進行交談,其中包括一個真實的人類和三個AI模型:1960年代的ELIZA程序、GPT-3.5以及GPT-4。在五分鐘的對話後,參與者需要判斷他們是否在與人類或AI進行交流。

image.png

實驗結果顯示,GPT-4被誤認爲人類的概率高達54%,而ELIZA只有22%,GPT-3.5爲50%,真正的人類則被正確識別的概率爲67%。這一結果首次提供了實驗證據,表明人工智能系統在互動式雙人圖靈測試中的表現已經足夠以假亂真。

1.jpg

研究人員還發現,參與者在判斷時更傾向於使用小談話和社會情感策略。他們根據對話內容和代理人的表現,主要依據語言風格和社會情感因素來做出判斷。這一發現對機器智能的討論具有重要影響,表明AI系統在實際應用中可能欺騙人類。

這項研究的意義重大,它不僅暗示了當前AI系統在實際應用中可能欺騙人類,也對機器智能的討論產生了深遠的影響。人們在與AI交流時,可能越來越難以區分對方是否爲人類,這對於人工智能的倫理、隱私和安全性等問題提出了新的挑戰。