ビットテクノロジーの商業化技術チームは、近日、新しい動画生成および編集フレームワーク「Bernini」を正式にオープンソース化しました。このフレームワークのコアは、「まず理解し、それから生成する」ための協力メカニズムを特徴とし、従来のモデルが複雑な指示を正確に理解できないために生じる画面の制御不能やフレーム間の点滅などの業界的な課題を効果的に解決することを目的としています。
現在、Berniniはビットテクノロジーが自前で行ったテストで業界トップクラスを維持しています。推論コードと第2段階のモデル「Bernini-R」の権限は正式に開放され、完全な機能を持つ全バージョンも近日中に全面的に公開される予定です。

セマンティクスとレンダリングの分離
Berniniはワークフローにおいて革新を図り、全体の処理プロセスを「セマンティクス計画」と「ビジュアルレンダリング」の2つの独立した部分に分割しています。システムはまずマルチモーダル大規模モデルのプランナーにより入力素材を深く解析し、「セマンティクススケッチ」を作成します。その後、レンダラーは計画された目標を安定した連続的な動画画像に変換します。
このような明確な分業により、このフレームワークは制御可能な編集において非常に実用的な価値を示しています。ユーザーは単純な指示により、画面内の天気、季節、視覚スタイルを自然に変化させたり、カメラの視点、焦点、主体の動作を正確に制御することが可能です。
豊富なビジュアル参照次元
従来のテキスト操作に加え、Berniniは画像や動画をビジュアル参照として導入することをサポートしており、創作の一貫性を大幅に向上させます。動画編集の場面では、特定の素材やポスターをターゲット領域に正確に埋め込むことができ、境界の破れや透視の乱れを防ぎます。
新規動画生成の場面では、このモデルは単一画像と多角的参照生成だけでなく、キーフレームから連続的なショットへの進化も可能にします。複数のビジュアルセグメントをつなぐ際にモデルが混乱しやすい問題に対処するために、チームは専用の位置符号化メカニズムを特別に導入し、参照素材と出力目標を区別することを確保しています。
プロジェクト:https://bernini-ai.github.io/
