正文

淘天集團聯合愛橙科技開源大模型訓練框架 Megatron-LLaMA

aibase

發布於AI新閒資訊

時間 :Sep 13, 2023

閱讀 :1分鐘

淘天集團聯合愛橙科技開源了大模型訓練框架 Megatron-LLaMA，旨在提升大語言模型的訓練性能，降低訓練成本，並與 LLaMA 社區保持兼容性。框架在 32 卡訓練上能夠取得 176% 的加速，對網絡不穩定也表現出高容忍度。Megatron-LLaMA 將關注自適應最優配置選擇、模型結構改動的支持以及在不同硬件環境下的極致性能訓練解決方案。

相關推薦

融資2.55億美元:AI實驗室Fundamental破繭而出，用Nexus模型重塑大模型分析能力

AI初創公司Fundamental結束隱身，宣佈完成2.55億美元A輪融資，投後估值達12億美元。本輪由Oak HC/FT等多家機構領投，Perplexity和Datadog的CEO等也以個人身份參與。公司核心產品爲基礎模型Nexus，旨在與ChatGPT等主流大語言模型競爭。

卡內基梅隆大學研發新 AI 系統：像“指揮家”一樣實時修復 3D 打印缺陷

卡內基梅隆大學團隊開發出基於大語言模型的3D打印實時糾錯系統。該系統模仿交響樂團，由一個“指揮家”智能體協調四個專業智能體，自動檢測並修復打印過程中的微小參數波動導致的錯誤，解決了傳統開環系統易失敗的問題。

研究揭示就業寒冬早於 ChatGPT 問世，AI 衝擊波早在2022年初已顯現

研究揭示AI就業衝擊早於ChatGPT發佈。大數據分析顯示，2022年初AI相關職業需求已開始下滑，比公衆認知提前數月。

一年狂飆500%！“AI教母”李飛飛再造神話，World Labs50 億美元估值劍指世界模型

李飛飛創立的World Labs正進行50億美元估值融資，計劃籌資5億美元，一年內估值翻五倍。這顯示資本市場看好其領跑的下一條AI賽道，而非當前大語言模型競爭。

東軟集團攜手 Cerence AI，打造未來智能座艙新體驗

東軟集團與Cerence AI達成戰略合作，共同開發新一代智能座艙平臺，聚焦智能語音與大語言模型技術，爲全球車企提供高效、預集成的智能交互解決方案。東軟將依託其NAGIC智能座艙平臺，結合Cerence AI的前沿技術，滿足市場對智能座艙日益增長的需求。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2026AIBase