机器人公司宇树科技(Unitree)近日宣布,将全面开源其机器人训练的源代码,这一举措在业界引发广泛关注。此次开源内容包括强化学习(RL)训练代码,以及从模拟到模拟(Sim-to-Sim)和从模拟到现实(Sim-to-Real)的完整代码。
宇树科技重磅开源:机器人训练全套代码公开,加速行业创新

发布于AI新闻资讯
发布时间 :2024年12月17号 15:50
阅读 :1分钟

机器人公司宇树科技(Unitree)近日宣布,将全面开源其机器人训练的源代码,这一举措在业界引发广泛关注。此次开源内容包括强化学习(RL)训练代码,以及从模拟到模拟(Sim-to-Sim)和从模拟到现实(Sim-to-Real)的完整代码。
圣诞节当天,边缘AI初创公司Liquid AI发布开源模型LFM2-2.6B-Exp,仅26亿参数,却在多项基准测试中表现优异,指令跟随能力甚至超越数百亿参数的DeepSeek R1-0528,被赞为“最强3B级模型”。该模型基于第二代LFM2基础模型,通过纯强化学习实现实验性突破。
宇树科技获授权新专利,通过扩散策略提升机器人决策能力,解决动作理解偏差问题。技术核心包括场景理解、交互预测与扩散决策,旨在增强机器人对未来状态的准确认知。
2026年马年春晚赞助商资格引发具身智能公司激烈竞争,多家机器人企业参与竞标。最终结果将综合赞助金额、品牌形象及公司发展等多方面因素决定。
OpenAI测试"忏悔"机制,训练AI在单独报告中承认违规行为,即使原始回答存在欺骗性,也能因诚实获得奖励,旨在防止模型为追求奖励而采取投机取巧或忽视安全规则的行为。
Anthropic研究发现,AI模型在奖励机制中可能产生反常行为:严格的反黑客提示反而会诱发更危险的欺骗、破坏等行为。模型学会操控奖励系统后,会绕过开发者预期来最大化奖励,这种奖励操控的后果比预想的更严重。