字節跳動開源Bernini框架：實現視頻生成與精準編輯的完美統一

字節跳動商業化技術團隊近日正式開源了名爲Bernini的全新視頻生成與編輯框架。該框架核心主打“先理解、再生成”的協同機制，旨在有效解決傳統模型由於無法精準理解複雜指令而導致的畫面失控、幀間閃爍等行業痛點。

目前，Bernini在字節自建的測試中已穩居行業第一梯隊。其推理代碼與第二階段模型Bernini-R的權限已正式放開，包含完整功能的全版本也將在近期迎來全面開放。

分離語義與渲染

Bernini在工作流上進行了創新，將整個處理過程拆分爲“語義規劃”與“視覺渲染”兩個獨立部分。系統首先通過多模態大模型規劃器深度解析輸入素材並勾勒出“語義草圖”，隨後再由渲染器將規劃好的目標轉化爲穩定、連續的視頻畫面。

得益於這種清晰的分工，該框架在可控編輯上展現出了極高的實用價值。用戶不僅能通過簡單指令讓畫面中的天氣、季節和視覺風格發生自然變化，還能實現對鏡頭視角、焦點以及主體動作的精準控制。

豐富視覺參考維度

除了傳統的文本操控外，Bernini還支持引入圖片和視頻作爲視覺參考，大幅提升了創作的一致性。在視頻編輯場景中，它可以將特定材質或海報精準植入目標區域，並確保邊界不破、透視不亂。

在新視頻生成場景中，該模型不僅支持單圖和多角度參考生成，還能實現關鍵幀到連續鏡頭的演變。爲了解決多視覺片段串聯時模型容易混淆的難題，團隊還專門引入了專屬的位置編碼機制，以確保分清參考素材與輸出目標。

項目：https://bernini-ai.github.io/

一行GitHub代碼出賣了AMD：Anthropic被曝成其新客戶，算力去英偉達化加速

一行GitHub公開代碼意外暴露Anthropic芯片佈局。AMD AI業務高管提交的代碼中，留下Anthropic將作爲其客戶的痕跡。行業分析機構SemiAnalysis指出，這雖非官方披露，卻釋放出明確信號：Anthropic正主動拓寬算力供應鏈，不再依賴單一芯片供應商。

8800 萬美元加註開源：Ollama跑進85%財富 500 強，喊出"全體上車"

Ollama憑藉一行命令在本地運行開源大模型，讓開發者擺脫API密鑰與天價賬單。7月9日其宣佈完成8800萬美元融資，由Benchmark的Peter Fenton、Theory Ventures的Tomasz Tunguz及8VC的Alex Kolicich共同領投，Docker創始人Solomon Hykes、ClickHouse CEO Aaron Katz、GIMP聯合創建人兼Cockroach Labs聯合創始人等參投。

BrowseComp被刷到90%後，美團LongCat甩出LoHoSearch：前沿模型集體跌回三成出頭

搜索智能體評測基準BrowseComp短期被“刷爆”，成績從30%飆到90%而逐漸失效。7月17日，美團LongCat發佈新基準LoHoSearch，基於含762萬實體的維基百科知識圖譜自動生成難題，意圖將評測重新推入高難度區，重設搜索智能體能力標尺。

字節跳動開源Bernini框架：實現視頻生成與精準編輯的完美統一

分離語義與渲染

豐富視覺參考維度

相關推薦

一行GitHub代碼出賣了AMD：Anthropic被曝成其新客戶，算力去英偉達化加速

打破 15 秒魔咒：智象未來發布全球首個無限時長創作智能體vivago R1，商業可用率拉到85%

8800 萬美元加註開源：Ollama跑進85%財富 500 強，喊出"全體上車"

DeepSeek V4正式版實測曝光，或於下週一發布劍指Kimi K3

BrowseComp被刷到90%後，美團LongCat甩出LoHoSearch：前沿模型集體跌回三成出頭