近日,字節跳動旗下的 Seed 團隊在 AI 代碼分享平臺 Hugging Face 上發佈了最新的開源大型語言模型 Seed-OSS-36B。這一新模型專注於高級推理和開發者友好性,其最大特點是支持長達512,000個 tokens 的輸入文本處理,遠超美國科技公司如 OpenAI 和 Anthropic 的產品。

Seed-OSS-36B 系列包括三個主要變體:Seed-OSS-36B-Base(含合成數據)、Seed-OSS-36B-Base(不含合成數據)和 Seed-OSS-36B-Instruct。合成數據版本在標準基準測試中表現更爲出色,適合一般用途,而不含合成數據的版本則爲研究提供了一個更加純粹的基礎。Seed-OSS-36B-Instruct 則專注於任務執行和指令跟隨,經過後訓練以優化表現。
所有模型均採用 Apache-2.0許可協議,意味着研究人員和開發者可以免費使用、修改和重新分發這些模型,不需支付字節跳動的許可費用。這標誌着中國公司在開放源代碼模型領域的又一次重要進展,同時也爲國際應用提供了更多可能性。
Seed-OSS-36B 的設計和核心特徵包括36億個參數、64層架構和155,000個 tokens 的詞彙量。該模型的長文本處理能力和推理預算設置,能夠讓開發者根據任務複雜性調整模型的推理深度。此外,該模型在多個基準測試中展現了優異的性能,例如,在數學和編程任務上取得了業界領先的成績。
Seed 團隊還特別關注模型的可訪問性,用戶可以通過 Hugging Face Transformers 進行部署,並支持4位和8位的量化格式以減少內存需求。此外,團隊提供了推理、提示自定義和工具集成的腳本,進一步降低了小團隊的操作門檻。
通過提供高性能和靈活部署的開放模型,字節跳動的 Seed 團隊爲企業、研究人員和開發者帶來了新的選擇。
huggingface:https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd
劃重點:
🌟 Seed-OSS-36B 模型支持長達512,000個 tokens 的輸入,超越競爭對手。
💡 模型分爲合成數據和不含合成數據的版本,以適應不同用戶需求。
🔧 所有模型均可免費使用,且支持多種部署和集成方案,便於開發者操作。
