萬萬沒想到,AI 不僅能在棋盤上 “廝殺”,在 “狼人殺” 這種爾虞我詐的社交遊戲中,也展現出了驚人的智力! 最近,一場代號爲 “Elimination Game” 的 AI “狼人殺” 基準測試火爆出爐, 結果簡直讓人 “虎軀一震”: GPT-4.5竟然在這場 “社交博弈” 中 “封神”, 把 Claude3.7Sonnet 和 DeepSeek R1等一衆 AI “大佬” 都遠遠甩在了身後! 這不禁讓人驚呼: AI 的 “社交智能” 已經進化到如此恐怖的程度了嗎?



萬萬沒想到,AI 不僅能在棋盤上 “廝殺”,在 “狼人殺” 這種爾虞我詐的社交遊戲中,也展現出了驚人的智力! 最近,一場代號爲 “Elimination Game” 的 AI “狼人殺” 基準測試火爆出爐, 結果簡直讓人 “虎軀一震”: GPT-4.5竟然在這場 “社交博弈” 中 “封神”, 把 Claude3.7Sonnet 和 DeepSeek R1等一衆 AI “大佬” 都遠遠甩在了身後! 這不禁讓人驚呼: AI 的 “社交智能” 已經進化到如此恐怖的程度了嗎?


近日,OpenAI 正式宣佈,將於 2025 年 7 月 14 日終止 GPT-4.5 預覽版 API 服務。這一決定將對使用該服務的第三方開發者產生重大影響,儘管個人版的 ChatGPT 用戶將不受影響。開發者們需在短短三個月內將自己的應用遷移到其他模型,以確保業務的持續運行。許多業內人士和開發者對這一消息表示困惑與失落,認爲這一決策可能與運算成本和定價策略有關。隨着 AI 技術的不斷進步,OpenAI 需要調整其業務模式,以保持競爭力並滿足市場需求。GPT-4.5 的關閉意味着,開發者需要尋找新的解決方案,
近日,OpenAI 向開發者發送了一封電子郵件,通知他們將在2025年7月14日從官方 API 中移除 GPT-4.5預覽版。這一消息迅速在 AI 和機器學習社區引發熱議。雖然 OpenAI 的發言人表示,GPT-4.5仍將可供個人 ChatGPT 用戶使用,但對於依賴於這一強大模型的第三方開發者來說,這無疑是一項重大的打擊。GPT-4.5預覽版被許多開發者視爲日常工作中的重要工具,因其出色的表現和可靠性而備受推崇。社交媒體平臺 X 上的用戶們對此反應不一,有人感到失望,也有人對這一決定表示困惑。有開發者甚至直接質
近日,一項由加州大學聖地亞哥分校認知科學系主導的研究爲人工智能領域帶來了里程碑式的突破:OpenAI最新模型GPT-4.5在標準圖靈測試中,以“人格扮演”方式首次實現了超越人類的表現,成爲目前最具類人對話能力的AI系統。這一成果不僅刷新了人們對AI語言能力的認知,也爲AI在社會智能領域的應用潛力打開了新的想象空間。此次實驗選取了四款具有代表性的AI系統進行對比測試,包括經典的1960年代聊天機器人ELIZA、Meta AI研發的LLaMa-3.1-405B,以及OpenAI的GPT-4o和GPT-4.5。研究人員設計了兩組
近日,Arc Prize 基金會發布了一項全新的測試 ——ARC-AGI-2,旨在測量人工智能(AI)模型的通用智能水平。該基金會由著名 AI 研究者 François Chollet 共同創立。根據基金會的博客,這項新測試對大多數領先的 AI 模型提出了嚴峻挑戰。根據 Arc Prize 排行榜,諸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “推理型” AI 模型在 ARC-AGI-2測試中的得分僅在1% 到1.3% 之間,而更爲強大的非推理模型,例如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 的得分也大約在1%。ARC-AGI 測試包含了一系列拼圖問題,要求 AI 從不同顏色的
近日,百度正式推出其最新的文心大模型4.5及文心大模型 X1,用戶可在文心一言官網免費體驗這兩款先進的模型。文心4.5是百度首個原生多模態大模型,專注於多模態理解和邏輯推理,其性能在多項基準測試中超越了 GPT-4.5,API 調用價格僅爲後者的1%。這一顯著的價格優勢,無疑會吸引更多開發者和企業的關注。文心大模型4.5在多模態理解方面取得了顯著進展,具備了圖形推理、圖表分析、甚至對梗圖、漫畫、歌曲和電影的理解能力。在多個測試中,文心4.5的平均分達到了79.6,超過了 GPT-