相關推薦
GPT-4.5首度以“人格扮演”通過圖靈測試:AI對話能力邁向新高度
近日,一項由加州大學聖地亞哥分校認知科學系主導的研究爲人工智能領域帶來了里程碑式的突破:OpenAI最新模型GPT-4.5在標準圖靈測試中,以“人格扮演”方式首次實現了超越人類的表現,成爲目前最具類人對話能力的AI系統。這一成果不僅刷新了人們對AI語言能力的認知,也爲AI在社會智能領域的應用潛力打開了新的想象空間。此次實驗選取了四款具有代表性的AI系統進行對比測試,包括經典的1960年代聊天機器人ELIZA、Meta AI研發的LLaMa-3.1-405B,以及OpenAI的GPT-4o和GPT-4.5。研究人員設計了兩組
新研究顯示:Anthropic 的 Claude AI 在合作能力上領先於 OpenAI 和谷歌模型
近日,一項新的研究論文揭示了不同 AI 語言模型在合作能力方面的顯著差異。研究團隊採用了一種經典的 “捐贈者遊戲”,測試了 AI 代理在多代合作中如何共享資源。結果顯示,Anthropic 的 Claude3.5Sonnet 表現出色,成功建立了穩定的合作模式,獲得了更高的資源總量。而谷歌的 Gemini1.5Flash 和 OpenAI 的 GPT-4o 則表現不佳,尤其是 GPT-4o 在測試中逐漸變得不合作,Gemini 代理的合作程度也十分有限。研究團隊進一步引入了懲罰機制,以觀察不同 AI 模型的表現變化。結果發現,Claude3.5的表現有了顯
即使是頂尖AI模型也難以應對複雜旅行規劃, OpenAI o1-preview也犯難
最近,一項新研究顯示,即便是先進的 AI 語言模型,比如 OpenAI 最新的 o1-preview,在複雜的規劃任務中也顯得力不從心。這項研究是由復旦大學、卡內基梅隆大學、字節跳動和俄亥俄州立大學的科學家們共同進行的,測試了 AI 模型在兩個規劃基準上的表現:BlocksWorld 和 TravelPlanner。在 BlocksWorld 這個經典的規劃任務中,大多數模型的準確率都低於50%,只有 o1-mini(略低於60%)和 o1-preview(接近100%)的表現相對較好。然而,當研究者將目光轉向更復雜的 TravelPlanner 時,所有模型的表現都令人失望。
新研究揭示小型 AI 語言模型在推理能力上的重大缺陷
最近,米拉研究所、谷歌 DeepMind 和微軟研究院的研究人員對 AI 語言模型的推理能力進行了深入調查,發現小型和便宜的模型在解決複雜問題時存在顯著不足。這項研究的是一個名爲 “組合 GSM” 的測試,目的是評估這些模型在解決鏈式的基礎數學問題方面的表現。圖源備註:圖片由AI生成,圖片授權服務商Midjourney研究人員結合了 GSM8K 數據集中的兩個問題,使用第一個問題的答案作爲第二個問題的變量進行測試。結果顯示,大多數模型在這些複雜的推理任務中表現遠低於預期,尤其是在小型
草莓終於來了!OpenAI重磅發佈"o1"模型:推理能力超越人類
OpenAI於週四正式發佈了備受期待的AI語言模型"o1"。這款被稱爲"Strawberry"的新模型聲稱在"推理"和問題解決能力方面較之前的大型語言模型有顯著提升。o1模型系列目前以o1-preview和o1-mini兩種形式推出,面向ChatGPT Plus用戶和部分API用戶開放使用。o1最引人注目的特點是其擬人化的思考過程。在回答問題前,o1會進入一種特殊的思考模式,將複雜問題分解成多個小步驟逐一解決,生成一條較長的內部思維鏈,從而得出更加準確的答案。這種技術被谷歌DeepMind稱爲"訓練時計算"(Test-time computation),
