字節跳動發佈高效預訓練長度縮放技術，突破長序列訓練瓶頸

字節跳動宣佈推出高效預訓練長度縮放技術（Efficient Pretraining Length Scaling），通過創新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架，顯著提升大語言模型(LLM)在長序列預訓練中的效率與性能。據AIbase瞭解，該技術在保持推理效率的同時，支持高達2048K(2M)的上下文長度訓練，解決了傳統框架在數據異構性與計算平衡上的瓶頸。相關研究已在arXiv公開，引發了AI研究社區的廣泛關注。

核心創新:PHD-Transformer優化長序列訓練

字節跳動的PHD-Transformer通過獨特的鍵值緩存（KV Cache）管理策略與架構優化，實現了高效的長度縮放。AIbase梳理了其主要技術亮點:

創新KV緩存管理:PHD-Transformer區分原始令牌與隱藏解碼令牌，僅保留原始令牌的KV緩存以支持長距離依賴，隱藏解碼令牌在生成後立即丟棄，保持與傳統Transformer相同的緩存規模，從而降低內存需求。

滑動窗口注意力機制:推出PHD-SWA（Sliding Window Attention）與PHD-CSWA(Chunk-wise Sliding Window Attention)兩種變體，前者保留局部依賴，後者通過分塊處理消除預填充時間的線性增長，提升訓練速度。

數據異構性優化:針對訓練數據中序列長度的偏態分佈（如Byted數據集80%的樣本≤4K，0.05%的樣本≥2M），技術通過動態上下文並行(Context Parallelism)減少短序列的冗餘通信，確保計算平衡。

高吞吐量表現:在Byted數據集上，訓練LLaMA-7B（2M上下文長度，1024GPUs）的實驗顯示，PHD-Transformer顯著提升吞吐量(每秒令牌數)，優於傳統基線方法。

AIbase注意到，社區測試中，PHD-Transformer在混合長短序列訓練中展現出卓越的靈活性，尤其在處理GitHub與Byted數據集的異構性時，通信開銷降低顯著，整體訓練效率提升約1.7倍。

技術架構:算法與系統協同設計

PHD-Transformer基於字節跳動的ByteScale框架，進一步整合了算法與系統優化。AIbase分析，其核心組件包括:

動態並行策略:結合數據並行與上下文並行，打破傳統靜態網格設計（如2D網格），通過自適應分組減少短序列的通信冗餘，解決O(S)通信複雜度問題。

計算平衡優化:針對長序列O（S²）的計算複雜性，PHD-Transformer通過微批次調整與動態分區，確保跨設備的執行時間均衡，減少同步等待。

VeOmni框架支持:集成字節跳動的VeOmni訓練框架，利用PyTorch原生功能與模塊化設計，支持跨加速器的無縫擴展，訓練腳本透明化提升開發者控制力。

低精度訓練兼容:結合4-bit通信量化技術（如SDP4Bit），在128GPUs規模上實現4.08倍端到端吞吐量提升，同時保持訓練損失幾乎不變。

AIbase認爲，PHD-Transformer與ByteScale、VeOmni的協同設計體現了字節跳動在全棧優化上的深厚積累，特別是在超大規模集羣（>12，000GPUs）上的表現尤爲突出。

應用場景:從語言模型到多模態擴展

高效預訓練長度縮放技術的發佈爲AI開發帶來了廣泛的應用前景。AIbase總結了其主要場景:

超長上下文語言模型:支持2M上下文長度的預訓練，適用於法律文檔分析、長篇文獻總結等需要超長序列理解的任務。

多模態模型訓練:通過VeOmni框架擴展至圖像、視頻與文本混合訓練，爲字節跳動的Doubao模型與多模態應用（如TikTok內容推薦）提供支持。

強化學習與推理:優化長序列強化學習（RL）任務，如Seed-Thinking-v1.5的訓練，加速迭代速度並提升模型穩定性。

企業級AI部署:低內存需求與高吞吐量特性適合資源受限環境，助力中小型企業構建高效AI系統。

社區反饋顯示，技術在處理Byted數據集的長序列任務（如佔12.1%令牌的≥2M樣本）時表現尤爲出色，顯著提升了模型對複雜任務的泛化能力。AIbase觀察到，其開源特性進一步推動了學術界與工業界的協作。

上手指南:開發者友好，快速部署

AIbase瞭解到，PHD-Transformer的代碼與預訓練模型已在GitHub開源（github.com/ByteDance-Seed），支持PyTorch環境與多加速器部署。開發者可按以下步驟快速上手:

克隆ByteScale與VeOmni倉庫，安裝Python3.9+與PyTorch依賴;

配置訓練數據集（如FineWeb或自定義Byted數據集），設置2M上下文長度;

使用提供的qwen2_5.yaml配置文件，運行train.sh腳本啓動PHD-SWA或PHD-CSWA訓練;

通過ByteCheckpoint合併分佈式檢查點，導出Hugging Face格式模型。

社區提供的Docker鏡像與Hugging Face集成簡化了部署流程。AIbase建議開發者優先測試PHD-CSWA變體，以優化大規模集羣的預填充效率，同時參考arXiv論文獲取詳細超參數設置。

社區反響與改進方向

技術發佈後，社區對其在長序列訓練中的效率與穩定性給予高度評價。開發者稱其“爲超長上下文模型的規模化訓練開闢了新路徑”，尤其在混合序列場景中的表現優於Megatron-LM等框架。然而，部分用戶反饋指出，PHD-Transformer對短序列任務的優化仍需進一步調整，建議增加自動化超參數調優工具。社區還期待技術擴展至多模態世界模型訓練，結合視頻與3D數據。字節跳動迴應稱，未來版本將探索MoE（Mixture-of-Experts）集成與更高效的量化策略，進一步降低訓練成本。 AIbase預測，技術可能與Hailuo Image或混元3D引擎結合，構建統一的跨模態生成框架。

未來展望:AI訓練效率的持續突破

字節跳動的高效預訓練長度縮放技術通過PHD-Transformer與ByteScale框架，展示了算法-系統協同設計的強大潛力。AIbase認爲，其在2M上下文長度與12，000+ GPUs規模上的成功，不僅推動了LLM預訓練的效率極限，還爲多模態與強化學習任務奠定了基礎。隨着VeOmni框架的開源與社區貢獻，技術有望成爲AI訓練的標準工具，類似Hugging Face的生態地位。AIbase期待字節跳動在2025年的進一步迭代，尤其是在低功耗訓練與動態數據調度上的突破。

論文地址：https://arxiv.org/pdf/2504.14992

字節跳動發佈高效預訓練長度縮放技術，突破長序列訓練瓶頸

相關推薦

GLM-4-32B 與 GLM-Z1-32B 在 OpenRouter 上線，免費開放

Persona Engine開源發佈，AI虛擬助手與Live2D融合打造交互新體驗

Intel 開源 AI Playground，可用intel Arc 顯卡使用各種AI模型

清華與上海 AI Lab 聯合打造新型過程獎勵模型GenPRM，讓小模型超越 GPT-4o

MCP生態崛起，六行代碼打造智能AI代理