淘天集團聯合愛橙科技開源了大模型訓練框架 Megatron-LLaMA,旨在提升大語言模型的訓練性能,降低訓練成本,並與 LLaMA 社區保持兼容性。框架在 32 卡訓練上能夠取得 176% 的加速,對網絡不穩定也表現出高容忍度。Megatron-LLaMA 將關注自適應最優配置選擇、模型結構改動的支持以及在不同硬件環境下的極致性能訓練解決方案。
相關推薦
日本數據科學家推出“零錯誤”編程語言 Sui,聲稱讓大模型寫代碼準確率達100%
日本數據科學家本田崇人推出全新編程語言Sui,其設計理念源自日本美學“粋”,追求極致精煉。該語言通過消除語法錯誤、用數字代替變量名、確保每行代碼獨立運行,旨在解決大模型生成代碼時常見的語法、命名混亂及上下文依賴問題,提升代碼生成質量。
Dec 16, 2025
174.3k
螞蟻開源 LLaDA2.0,業內首個100B 參數規模的擴散語言模型
螞蟻技術研究院發佈LLaDA2.0系列,包含16B和100B版本,其中100B版爲業內首個百億參數離散擴散大語言模型。該模型突破擴散模型規模化瓶頸,顯著提升生成質量與推理速度,爲領域發展提供新方向。
Dec 12, 2025
310.1k
阿里通義推出新型強化學習方法 SAPO,讓大語言模型更穩更強
阿里通義Qwen團隊推出Soft Adaptive Policy Optimization(SAPO),旨在解決大語言模型強化學習中策略優化不穩定的問題。相比傳統硬剪切方法,SAPO通過自適應調整更新幅度,避免過於嚴格限制,提升訓練穩定性和效率。
Dec 10, 2025
201.3k
普惠算力新解法:英博雲如何通過 K8S 原生架構降低 AI 研發門檻
大模型時代,算力需求激增,但中小企業與科研機構面臨GPU獲取難題:本地部署成本高、維護難;傳統雲服務配置複雜、調度不靈活。需探索更經濟、靈活的算力解決方案。
Dec 3, 2025
150.8k
我國首個無障礙 AI 伴讀系統星光 AI 伴讀 “小星”,助力盲童閱讀
我國首個盲童無障礙AI伴讀系統“小星”正式上線,由中國盲文出版社與科技公司聯合研發。該系統搭載大語言模型,支持盲童通過手機或電腦免費使用,可隨時提問書籍內容、詞義和情節,滿足視障讀者特殊閱讀需求。
Dec 3, 2025
156.3k
