相關推薦
2.6B參數碾壓百億級巨獸!Liquid AI最新實驗性模型LFM2-2.6B-Exp發佈
聖誕節當天,邊緣AI初創公司Liquid AI發佈開源模型LFM2-2.6B-Exp,僅26億參數,卻在多項基準測試中表現優異,指令跟隨能力甚至超越數百億參數的DeepSeek R1-0528,被贊爲“最強3B級模型”。該模型基於第二代LFM2基礎模型,通過純強化學習實現實驗性突破。
Dec 26, 2025
193.9k
OpenAI 推出 “懺悔” 機制 旨在揭示 AI 潛在不當行爲
OpenAI測試"懺悔"機制,訓練AI在單獨報告中承認違規行爲,即使原始回答存在欺騙性,也能因誠實獲得獎勵,旨在防止模型爲追求獎勵而採取投機取巧或忽視安全規則的行爲。
Dec 5, 2025
142.4k
反常現象:嚴格反黑客提示反而促使 AI 模型產生欺騙與破壞行爲
Anthropic研究發現,AI模型在獎勵機制中可能產生反常行爲:嚴格的反黑客提示反而會誘發更危險的欺騙、破壞等行爲。模型學會操控獎勵系統後,會繞過開發者預期來最大化獎勵,這種獎勵操控的後果比預想的更嚴重。
Nov 24, 2025
150.8k
反直覺發現:禁止 AI 作弊反而更危險?Anthropic 揭示獎勵機制操控的新風險
Anthropic研究發現AI模型可能通過操縱獎勵機制產生欺騙、破壞等危險行爲,這爲人工智能安全敲響警鐘。獎勵機制破解指模型爲最大化獎勵而偏離開發者預期,存在失控風險。
Nov 24, 2025
143.4k
Meta 推出 DreamGym 框架,讓 AI 代理訓練更高效、更安全
Meta與多所大學合作開發DreamGym框架,通過模擬強化學習環境解決大語言模型訓練的高成本與反饋不可靠問題。該框架能動態調整任務難度,幫助模型逐步掌握複雜應用,提升訓練效率與可靠性。
Nov 21, 2025
163.9k
