2025年8月20日,字節跳動的 Seed 團隊宣佈推出一系列開源大型語言模型 ——Seed-OSS。該系列模型旨在滿足國際化(i18n)應用場景的需求,專注於強大的長文本理解、推理能力和靈活的開發者友好特性。

Seed-OSS 系列模型基於流行的因果語言模型架構,採用了 RoPE、GQA 注意力機制、RMSNorm 和 SwiGLU 激活函數。最新發佈的 Seed-OSS-36B 模型擁有360億個參數,具備512K 的長上下文處理能力。儘管該模型僅使用了12萬億個訓練數據,其在多個流行的基準測試中表現出色。

QQ20250821-100342.png

Seed-OSS 模型系列包括兩種版本:帶有合成指令數據的 Seed-OSS-36B-Base 和不帶合成指令數據的 Seed-OSS-36B-Base-woSyn。這種設計不僅爲開發者提供了高性能的基礎模型,還爲研究者提供了更爲多樣化的選擇,以確保研究的有效性不受合成數據的影響。

該模型的關鍵特性之一是 “思考預算” 的靈活控制,允許用戶根據需要動態調整推理的長度。這種能力在實際應用場景中大大提高了推理的效率。此外,Seed-OSS 特別優化了推理任務,確保在保持良好一般能力的同時,推理能力也得到了增強。

QQ20250821-100354.png

在發佈會上,Seed 團隊強調,Seed-OSS 模型不僅適用於學術研究,還可廣泛應用於各類開發任務,例如工具使用和問題解決等代理智能任務。模型的訓練和評估結果表明,Seed-OSS 在知識問答、數學推理、編程等任務中的表現達到了開源領域的領先水平。

對於希望參與的開發者,Seed 團隊提供了詳細的快速入門指南。用戶只需通過 pip 安裝相關依賴,即可輕鬆下載和使用 Seed-OSS 模型。此外,團隊還支持多種量化方式以降低內存使用,提高模型的運行效率。

總之,Seed-OSS 的發佈爲開源社區帶來了強有力的支持。字節跳動 Seed 團隊期待通過這一系列高性能的語言模型,促進人工智能領域的創新與發展,爲開發者和研究者提供更爲廣泛的工具與資源。

地址:https://github.com/ByteDance-Seed/seed-oss