機器人公司宇樹科技(Unitree)近日宣佈,將全面開源其機器人訓練的源代碼,這一舉措在業界引發廣泛關注。此次開源內容包括強化學習(RL)訓練代碼,以及從模擬到模擬(Sim-to-Sim)和從模擬到現實(Sim-to-Real)的完整代碼。
宇樹科技重磅開源:機器人訓練全套代碼公開,加速行業創新

發布於AI新閒資訊
時間 :Dec 17, 2024
閱讀 :1分鐘

機器人公司宇樹科技(Unitree)近日宣佈,將全面開源其機器人訓練的源代碼,這一舉措在業界引發廣泛關注。此次開源內容包括強化學習(RL)訓練代碼,以及從模擬到模擬(Sim-to-Sim)和從模擬到現實(Sim-to-Real)的完整代碼。
聖誕節當天,邊緣AI初創公司Liquid AI發佈開源模型LFM2-2.6B-Exp,僅26億參數,卻在多項基準測試中表現優異,指令跟隨能力甚至超越數百億參數的DeepSeek R1-0528,被贊爲“最強3B級模型”。該模型基於第二代LFM2基礎模型,通過純強化學習實現實驗性突破。
宇樹科技獲授權新專利,通過擴散策略提升機器人決策能力,解決動作理解偏差問題。技術核心包括場景理解、交互預測與擴散決策,旨在增強機器人對未來狀態的準確認知。
2026年馬年春晚贊助商資格引發具身智能公司激烈競爭,多家機器人企業參與競標。最終結果將綜合贊助金額、品牌形象及公司發展等多方面因素決定。
OpenAI測試"懺悔"機制,訓練AI在單獨報告中承認違規行爲,即使原始回答存在欺騙性,也能因誠實獲得獎勵,旨在防止模型爲追求獎勵而採取投機取巧或忽視安全規則的行爲。
Anthropic研究發現,AI模型在獎勵機制中可能產生反常行爲:嚴格的反黑客提示反而會誘發更危險的欺騙、破壞等行爲。模型學會操控獎勵系統後,會繞過開發者預期來最大化獎勵,這種獎勵操控的後果比預想的更嚴重。