字節跳動發佈開源代碼模型Seed-Coder，8B參數引領編程新風潮

字節跳動Seed團隊正式推出全新開源代碼模型Seed-Coder，以其卓越的代碼生成、補全、編輯及推理能力引發業界廣泛關注。作爲一款8B參數規模的模型，Seed-Coder在多個基準測試中超越同級別競品，展現出強大的編程潛力和高效的數據處理設計。

模型概覽:8B參數，32K上下文，MIT協議開源

Seed-Coder是一個專注於代碼生成、編程和軟件工程任務的模型系列，包含三個主要變體:

Seed-Coder-8B-Base:基於模型爲中心的代碼數據預訓練，奠定堅實基礎。

Seed-Coder-8B-Instruct:通過指令微調優化，擅長響應用戶編程意圖。

Seed-Coder-8B-Reasoning:強化推理能力，適用於複雜軟件工程場景。

該模型支持32，768tokens的上下文長度，採用寬鬆的MIT開源協議，完整代碼已發佈至Hugging Face，方便開發者自由使用與二次開發。Seed-Coder的前身是doubao-coder，基於Llama3結構，參數量約爲8.25億，結合分組查詢注意力（GQA）機制，確保高效性能表現。

核心亮點:模型爲中心的數據處理範式

Seed-Coder的最大創新在於其**“模型爲中心”的數據處理方式**，大幅減少人工干預，提升數據篩選效率。字節Seed團隊提出利用小型語言模型（LLM）自動策劃和過濾代碼數據，取代傳統的手工規則。這種方法通過以下步驟實現:

質量過濾:基於DeepSeek-V2-Chat訓練的評分模型，從22萬+份代碼文檔中篩選高質量數據，評估維度包括可讀性、模塊性、清晰度和可重用性。

提交數據優化:從14萬個高星級GitHub倉庫中提取7400萬個提交記錄，格式化爲代碼變更預測任務，生成約1000億token的預訓練語料。

多階段預訓練:結合文件級代碼、網絡數據、高質量數據集及長上下文數據，通過Fill-in-the-Middle（FIM）和Suffix-Prefix-Middle(SPM)訓練增強上下文感知能力。

這一範式不僅提升了模型的代碼生成質量，還爲未來AI驅動的數據處理提供了新思路。

性能表現:多項基準測試奪冠

Seed-Coder在編程領域的表現令人矚目，尤其在以下基準測試中取得領先:

SWE-bench:軟件工程任務評測，展現出色的代碼修復與生成能力。

Multi-SWE-bench:多語言代碼修復基準，驗證其跨語言通用性。

IOI:國際信息學奧林匹克相關任務，凸顯強大的代碼推理能力。

相較於Qwen3-8B和Qwen2.5-Coder-7B，Seed-Coder在Aider測試中自測得分約57.1，展現出更優的編程水平。其8B參數規模雖小，卻憑藉精細的數據處理和訓練策略，實現了媲美更大模型的性能，堪稱“輕量級王者”。

字節跳動近期在AI領域的動作頻頻，Seed-Coder的發佈是其開源戰略的重要一環。除了代碼模型，字節還開源了視頻生成模型和推理模型，致力於降低AI開發門檻，構建開放的生態系統。Seed-Coder的MIT協議和Hugging Face代碼發佈，進一步體現了字節對全球開發者社區的支持。

AIbase觀察到，字節Seed團隊通過模型驅動的數據處理和高效訓練方法，不僅推動了代碼生成技術的進步，也爲AI在軟件工程領域的應用開闢了新可能性。未來，Seed-Coder有望在自動化編程、代碼審查和教育等領域發揮更大作用。

Seed-Coder開啓智能編程新未來

作爲字節跳動在AI編程領域的最新力作，Seed-Coder以其創新的數據處理範式、卓越的性能表現和開放的生態策略，爲開發者提供了一款高效、靈活的代碼生成工具。AIbase將繼續跟蹤字節Seed團隊的動態，爲讀者帶來更多前沿AI技術的深度報道。

項目:https://github.com/ByteDance-Seed/Seed-Coder

火屋潛水艇：Momos AI平臺助力北美1350家餐廳轉型升級

Momos 公司近日宣佈，其人工智能（AI）客戶助理平臺已在北美超過1350家火屋潛水艇(Firehouse Subs)餐廳上線。這一創新技術旨在爲多地點品牌提供全面的客戶管理解決方案，涵蓋聲譽管理、客戶體驗、客戶服務和市場營銷等多個方面，幫助餐廳實現全面數字化轉型。火屋潛水艇是一家總部位於佛羅里達州傑克遜維爾的快餐連鎖店，以其獨特的潛艇三明治而聞名。該品牌由消防員兄弟克里斯和羅賓・索倫森於1994年創立。Momos 的這一 AI 平臺不僅自動化了各種客戶管理任務，還整合了所有操作於一

Reddit因AI實驗受挫，強化用戶身份驗證

近日，Reddit 因一項未經授權的 AI 實驗而採取了強硬措施，決定對相關研究團隊實施禁令。該實驗由蘇黎世大學的研究人員進行，持續了四個月，目的是在熱門的 r/changemyview 論壇上部署 AI 代理。這些 AI 代理假裝成創傷倖存者、政治人物等，試圖通過個性化、具說服力的評論來影響用戶的觀點，而這一切都是在沒有透露其非人類身份的情況下進行的。事件的曝光在 Reddit 社區內引起了強烈的反響。Reddit 的首席法律官公開譴責該實驗，稱其不僅違反了法律規定，還觸犯了道德底線。Reddit 首席

突破性技術MCA-Ctrl：中科院團隊引領AI圖像定製化新範式

中國科學院計算技術研究所研究團隊近日推出的MCA-Ctrl技術在生成式AI領域引發廣泛關注，這一文本到圖像（T2I）新方法正爲圖像定製化市場帶來革命性變革。在個性化需求日益增長的當下，該技術通過獨特的多方協同注意力控制機制，讓用戶無需繁瑣的模型微調，即可根據文本或圖像條件生成高度個性化的圖像內容。MCA-Ctrl最大的技術亮點在於其三大核心應用能力:主題替換、主題生成和主題添加。這意味着用戶可以在保持圖像中主體特徵的前提下，一鍵生成各種新表現形式的圖像。與現有

亞馬遜展示機器人時代下人類新角色的前景

在當今科技行業，關於人類在日益自動化的世界中所扮演的角色，出現了兩種截然不同的觀點:一種認爲除了他們自己，其他所有工作都將被機器人取代;另一種則認爲機器人會承擔那些乏味和重複的工作，而人類將負責新的工作類型。根據世界經濟論壇的預測，雖然當前的技術趨勢將導致9200萬個職位消失，但也將創造1.7億個新工作崗位。圖源備註:圖片由AI生成，圖片授權服務商Midjourney然而，對於那些沒有經濟實力或對人工智能和機器學習不感興趣的人，比如如今的倉庫工人，未來的工作場

Kimi入駐小紅書，AI大模型從“投流大戰”轉向內容深耕