淘天集團聯合愛橙科技開源了大模型訓練框架 Megatron-LLaMA,旨在提升大語言模型的訓練性能,降低訓練成本,並與 LLaMA 社區保持兼容性。框架在 32 卡訓練上能夠取得 176% 的加速,對網絡不穩定也表現出高容忍度。Megatron-LLaMA 將關注自適應最優配置選擇、模型結構改動的支持以及在不同硬件環境下的極致性能訓練解決方案。
相關推薦
Anthropic發佈重磅大模型Claude Sonnet 5:性能直逼旗艦,價格卻大跳水
Anthropic發佈新中高階模型Claude Sonnet 5,主打性價比,性能大幅逼近旗艦Opus系列。該模型具備迄今最強代理能力,可自主規劃複雜任務、自查輸出,並靈活調用瀏覽器與終端等外部工具,在推理、編程和知識任務上表現突出。
Jul 1, 2026
247.3k
降本增效大動作:Meta 大規模啓用 AI 接管內容審覈
Meta在扎克伯格力推AI的背景下,加速用大語言模型取代人工審覈,已將AI深度融入內容與廣告合規審查。目前平臺約50%的內容審覈已由AI完成,旨在優化成本與效率。
Jun 26, 2026
178.8k
大模型長文本迎來新突破,智譜AI正式開源旗艦模型GLM-5.2
智譜AI發佈新一代開源旗艦模型GLM-5.2,專攻長程任務,支持1M無損上下文,編程效率大幅提升。採用極寬鬆MIT協議,開發者和企業可自由下載、商用部署。
Jun 17, 2026
329.7k
顧全全確認離職字節Seed團隊,曾主導SeedFold與Seed2.0訓練體系建設
字節跳動Seed團隊核心研究員顧全全確認離職,其在社交平臺發文回顧了三年間在AI藥物發現和大語言模型預訓練領域的研究成果。她主導研發的生物分子結構預測模型SeedFold在多個公開基準測試中表現優異。此次離職正值字節AI業務加速商業化,引發外界對AI for Science創業熱潮的關注。
Jun 8, 2026
237.9k
告別單輪傻瓜問答!雲知聲發佈原生智能體大模型U2,自主攻克百步複雜工作流
生成式人工智能正從聊天工具向“超級數字員工”進化。6月8日,雲知聲發佈新一代通用大模型U2,專爲個人、開發者及企業設計。它突破傳統單輪對話侷限,聚焦高智能密度與高Token價值,提升實際交付能力。
Jun 8, 2026
201.4k
