AI聊天機器人在社交判斷測試中超越人類，或成社交互動顧問

最近，發表在《Scientific Reports》上的一項研究顯示，某些先進的 AI 聊天機器人在評估複雜社交情境方面的表現優於人類。

研究人員利用一種被廣泛使用的心理學工具 —— 情境判斷測試，發現三個聊天機器人 ——Claude、Microsoft Co pilot 和 you.com 的智能助手，在選擇最有效的行爲反應方面，超過了人類參與者的表現。

AI機器人寫論文

圖源備註:圖片由AI生成，圖片授權服務商Midjourney

隨着社會交往日益重要，AI 在社交互動中的潛力不斷顯現，包括在客戶服務和心理健康支持等領域的應用。大型語言模型（如本次研究中測試的聊天機器人）能夠處理語言、理解上下文並提供有效的迴應。儘管之前的研究已證明這些模型在學術推理和語言任務中的能力，但它們在複雜社交動態中的有效性仍未得到充分探索。

研究團隊對276名人類參與者進行了測試，這些參與者是高素質的飛行員申請者。研究採用了情境判斷測試，展示了12個需要評估的情境，每個情境提供四種潛在的行爲選項。研究人員比較了五個 AI 聊天機器人的表現，發現所有測試的聊天機器人在表現上至少與人類持平，甚至有的表現更佳。Claude 的表現最佳，隨後是 Microsoft Co pilot 和 you.com 的智能助手。

有趣的是，當聊天機器人沒有選擇最佳反應時，它們往往選擇了第二有效的選項，顯示出與人類決策模式的相似之處。這表明 AI 系統雖然不是完美的，但在社交判斷和概率推理方面具備一定的能力。

此外，研究還發現不同 AI 系統之間的可靠性差異。Claude 在多次測試中表現出最高的一致性，而 Google Gemini 在不同測試中可能會出現矛盾的評分結果。儘管如此，所有 AI 系統的整體表現超出預期，展示了它們在提供社交能力建議方面的潛力。

研究人員指出，雖然許多人已經在日常任務中使用聊天機器人，但在社交互動的複雜場景中，它們的表現仍需進一步驗證。研究顯示，大型語言模型在模擬的社交情境中表現出色，但它們並不具備真實的情感，這對真正的社交行爲是必需的。

劃重點:
🌟 AI 聊天機器人在複雜社交判斷中表現優於人類，具有潛力作爲社交顧問。
🧠 研究比較了多個聊天機器人的表現，發現 Claude、Microsoft Co pilot 表現突出。
⚖️ 儘管 AI 系統在模擬情境中表現良好，但在真實社交互動中的應用仍需進一步研究。

AI聊天機器人在社交判斷測試中超越人類，或成社交互動顧問

相關推薦

阿里巴巴內部“反向禁用”：全面下架 Claude 系列 AI 工具

Anthropic Claude系列大模型正式登陸Microsoft Foundry並託管於Azure雲

算力生態深度整合：Anthropic Claude 模型正式接入 Azure AI Foundry

AI 代理進化加速：Anthropic Claude 攜手英偉達 GB300 落地 Azure

半數用戶解放雙手：Anthropic調查顯示AI已能承擔過半工作

​AI聊天機器人在社交判斷測試中超越人類，或成社交互動顧問

相關推薦

阿里巴巴內部“反向禁用”：全面下架 Claude 系列 AI 工具

Anthropic Claude系列大模型正式登陸Microsoft Foundry並託管於Azure雲

算力生態深度整合：Anthropic Claude 模型正式接入 Azure AI Foundry

AI 代理進化加速：Anthropic Claude 攜手英偉達 GB300 落地 Azure

半數用戶解放雙手：Anthropic調查顯示AI已能承擔過半工作

AI聊天機器人在社交判斷測試中超越人類，或成社交互動顧問