字節跳動商業化技術團隊近日正式開源了名爲Bernini的全新視頻生成與編輯框架。該框架核心主打“先理解、再生成”的協同機制,旨在有效解決傳統模型由於無法精準理解複雜指令而導致的畫面失控、幀間閃爍等行業痛點。

目前,Bernini在字節自建的測試中已穩居行業第一梯隊。其推理代碼與第二階段模型Bernini-R的權限已正式放開,包含完整功能的全版本也將在近期迎來全面開放。

image.png

分離語義與渲染

Bernini在工作流上進行了創新,將整個處理過程拆分爲“語義規劃”與“視覺渲染”兩個獨立部分。系統首先通過多模態大模型規劃器深度解析輸入素材並勾勒出“語義草圖”,隨後再由渲染器將規劃好的目標轉化爲穩定、連續的視頻畫面。

得益於這種清晰的分工,該框架在可控編輯上展現出了極高的實用價值。用戶不僅能通過簡單指令讓畫面中的天氣、季節和視覺風格發生自然變化,還能實現對鏡頭視角、焦點以及主體動作的精準控制。

豐富視覺參考維度

除了傳統的文本操控外,Bernini還支持引入圖片和視頻作爲視覺參考,大幅提升了創作的一致性。在視頻編輯場景中,它可以將特定材質或海報精準植入目標區域,並確保邊界不破、透視不亂。

在新視頻生成場景中,該模型不僅支持單圖和多角度參考生成,還能實現關鍵幀到連續鏡頭的演變。爲了解決多視覺片段串聯時模型容易混淆的難題,團隊還專門引入了專屬的位置編碼機制,以確保分清參考素材與輸出目標。

項目:https://bernini-ai.github.io/