最近,發表在《Scientific Reports》上的一項研究顯示,某些先進的 AI 聊天機器人在評估複雜社交情境方面的表現優於人類。

研究人員利用一種被廣泛使用的心理學工具 —— 情境判斷測試,發現三個聊天機器人 ——Claude、Microsoft Co pilot 和 you.com 的智能助手,在選擇最有效的行爲反應方面,超過了人類參與者的表現。

AI機器人寫論文

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

隨着社會交往日益重要,AI 在社交互動中的潛力不斷顯現,包括在客戶服務和心理健康支持等領域的應用。大型語言模型(如本次研究中測試的聊天機器人)能夠處理語言、理解上下文並提供有效的迴應。儘管之前的研究已證明這些模型在學術推理和語言任務中的能力,但它們在複雜社交動態中的有效性仍未得到充分探索。

研究團隊對276名人類參與者進行了測試,這些參與者是高素質的飛行員申請者。研究採用了情境判斷測試,展示了12個需要評估的情境,每個情境提供四種潛在的行爲選項。研究人員比較了五個 AI 聊天機器人的表現,發現所有測試的聊天機器人在表現上至少與人類持平,甚至有的表現更佳。Claude 的表現最佳,隨後是 Microsoft Co pilot 和 you.com 的智能助手。

有趣的是,當聊天機器人沒有選擇最佳反應時,它們往往選擇了第二有效的選項,顯示出與人類決策模式的相似之處。這表明 AI 系統雖然不是完美的,但在社交判斷和概率推理方面具備一定的能力。

此外,研究還發現不同 AI 系統之間的可靠性差異。Claude 在多次測試中表現出最高的一致性,而 Google Gemini 在不同測試中可能會出現矛盾的評分結果。儘管如此,所有 AI 系統的整體表現超出預期,展示了它們在提供社交能力建議方面的潛力。

研究人員指出,雖然許多人已經在日常任務中使用聊天機器人,但在社交互動的複雜場景中,它們的表現仍需進一步驗證。研究顯示,大型語言模型在模擬的社交情境中表現出色,但它們並不具備真實的情感,這對真正的社交行爲是必需的。

劃重點:

🌟 AI 聊天機器人在複雜社交判斷中表現優於人類,具有潛力作爲社交顧問。

🧠 研究比較了多個聊天機器人的表現,發現 Claude、Microsoft Co pilot 表現突出。

⚖️ 儘管 AI 系統在模擬情境中表現良好,但在真實社交互動中的應用仍需進一步研究。