淘天集團聯合愛橙科技開源了大模型訓練框架 Megatron-LLaMA,旨在提升大語言模型的訓練性能,降低訓練成本,並與 LLaMA 社區保持兼容性。框架在 32 卡訓練上能夠取得 176% 的加速,對網絡不穩定也表現出高容忍度。Megatron-LLaMA 將關注自適應最優配置選擇、模型結構改動的支持以及在不同硬件環境下的極致性能訓練解決方案。