7月30日,火山引擎在其主辦的FORCE Link AI創新巡展·廈門站活動上,發佈豆包系列新模型及AI雲原生服務升級成果,包括豆包·圖像編輯模型3.0、同聲傳譯模型2.0,以及全新升級的豆包大模型1.6系列,同時推出釦子核心能力開源、企業自有模型託管方案等工具,爲企業及開發者構建Agent、落地AI應用提供全棧支持。
圖:火山引擎總裁譚待發布最新豆包模型
豆包系列新模型面向企業開放
針對AI圖像編輯中“聽不懂指令、誤改內容、生成效果差”的痛點,火山引擎推出豆包·圖像編輯模型3.0(SeedEdit3.0)。該模型通過強化指令遵循能力、圖像保持能力及生成質量,讓用戶僅憑自然語言即可完成消除冗餘、調整光影、替換元素等操作,還能實現風格轉換、材質變換、姿勢調整等創新修圖場景。該模型廣泛適用於影像創作、廣告營銷等領域,企業用戶可在火山方舟調用其API,個人用戶則能通過即夢或豆包app進行體驗。
最新發佈的豆包·同聲傳譯模型2.0(Seed-LiveInterpret2.0),突破傳統“級聯模型”侷限,採用全雙工框架將語音延遲從8-10秒降至2-3秒,實現文本與語音同步生成。更支持0樣本聲音復刻,無需提前錄製即可實時生成同音色外語語音,甚至匹配方言口音,大幅提升跨語言溝通沉浸感。
豆包大模型1.6系列也進行了升級。其中,極速版Doubao-Seed-1.6-flash模型在保持強大視覺理解能力的同時,強化了代碼、推理、數學等能力,適配智能巡檢、手機助手等大規模商業化場景。該模型TPOT(首Token輸出時間)低至10ms,爲業界領先;成本上,在0-32k輸入文本長度區間(企業最常用),每百萬tokens輸入僅0.15元、輸出1.5元,在客戶使用案例中,已實現延遲下降60%、成本降低70%。
此外,全模態向量化模型Seed1.6-Embedding首次實現“文本+圖像+視頻”混合模態融合檢索,助力企業構建更強大的多模態知識庫,在權威測評中包攬多模態全面任務及中文文本的最優成績。
優化AI雲原生服務,加速Agent開發落地
爲助力Agent端到端開發與落地,火山引擎持續優化AI雲原生全棧服務。7月26日,AI Agent開發平臺釦子核心能力正式開源,涵蓋一站式可視化開發工具“釦子開發平臺(Coze Studio)”和全鏈路管理工具“釦子羅盤(Coze Loop)”,採用Apache2.0許可證,用戶可在GitHub下載。開源僅三天,Coze Studio星標數破萬,Coze Loop星標數超3000。火山引擎爲其提供全面支持,企業AI平臺HiAgent可調用其能力,雲基礎產品支持一鍵部署。
針對有模型定製需求的企業,火山引擎依託火山方舟模型單元推出自有模型託管方案。企業無需運維底層GPU資源及複雜配置,即可實現自研模型全託管,享受彈性算力,自主選擇部署方式與機型,精準控制時延,且無需爲業務低谷期付費,目前已開放邀測。
同時,火山方舟升級API體系,推出Responses API。該API具備原生上下文管理能力,支持多輪對話鏈式管理及文本、圖像等多模態數據銜接,結合緩存能力可降低80%成本;還支持單次請求聯動多工具與模型組合響應,將智能助手Agent開發從460行代碼、1-2天,縮減至60行代碼、1小時,大幅提升效率。
此次系列發佈進一步完善了火山引擎AI生態佈局,爲企業與開發者提供從基礎模型到開發工具的全鏈條支持,加速AI在各行業的落地應用。