ビデオテクノロジーのAI革命:Vidi2が正式リリース

中国のテクノロジーギガントであるテンセント・テクノロジーは、近日、新たな人工知能(AI)ビデオエディタ「Vidi2」を正式にリリースしました。このツールは、画期的なビデオ理解と創造能力で業界を驚かせています。最新の技術評価によると、Vidi2はビデオ理解の深さにおいてグーグルのGemini3Proを上回り、現在最も先進的なビデオマルチモーダルモデルとなっています。このモデルは長時間の動画専用に設計されており、何時間もの膨大な素材を処理し、簡単なキーワードからスクリプトやTikTokの短編動画、または完全な映画を自動生成できるため、ビデオ制作のハードルを大幅に下げています。

Vidi2のリリースは、テンセント・テクノロジーがAIマルチモーダル分野で重要な一歩を踏み出したことを示しています。TikTokと抖音の親会社として、テンセント・テクノロジーは長年ショートビデオエコシステムに注力してきました。今回のツールのリリースにより、世界中のコンテンツクリエイターを支援し、AIが補助ツールから核心的な生産力へと転換するのを促進するでしょう。

image.png

技術的突破:時空間定位とエンド・トゥ・エンド編集

Vidi2の核心技術は、細粒度の時空間定位能力です。この機能により、ビデオ内の特定の動作や対象の出現位置と時間帯を正確に捉えることができます。従来のビデオAIは長い動画全体を「読む」ことが難しく、イベントの開始・終了や関与主体の識別が不正確になる傾向がありますが、Vidi2はマルチモーダルエンコーダーと言語モデルの骨格を組み合わせ、テキスト、ビジュアルフレーム、音声入力を統合することでピクセル単位の分析が可能です。

具体的には、ユーザーがテキストクエリを入力すると、モデルは正確な開始・終了タイムスタンプと対象オブジェクトの境界ボックストラック(bounding box tube)を返します。例えば、数時間のドキュメンタリー動画の中で「猫のジャンプシーン」を検索すると、Vidi2は秒単位のスニペットだけでなく、それらを独立した短編動画として自動的に抽出・編集できます。このモデルでは、自己適応型の視覚トークン圧縮技術を採用しており、メモリ効率を向上させ、極端に短いまたは長い編集でも、重要な文脈を保持することができます。

ベンチマークテストでは、Vidi2はVUE-STG(時空間管理ベースライン)およびVUE-TR-V2(時系列検索ベースライン)で、Gemini3ProやGPT-5などの商用モデルを大幅に上回っています。ビデオ質問応答タスクでは、特に物語認識自動編集の面で、ワンクリックでカット、字幕追加、ストーリー図の再構築など、さまざまな機能がサポートされています。テンセント・テクノロジーのチームは、このモデルのトレーニングデータが合成編集と膨大な本物の動画を融合しており、生成されたコンテンツが高精度で自然な流れを持つことを保証していると述べています。

応用場面の革新:素材検索からスマートスクリプト生成まで

Vidi2は単なるエディタではなく、スマートな創作アシスタントです。エンド・トゥ・エンドワークフローにより、ビデオ制作は人間によるラッピングから自然言語駆動へと変化します。テーマのヒントを入力すると、モデルはタイトル、ハック、スケッチ、そして完成品の動画を自動的に出力します。クリエイターは、長編素材を簡単にTikTokの縦画面の短編動画に変換したり、映画級の物語に拡張したりすることができます。これはニュース、広告、エンターテインメントなどの分野で利用されます。

想像してください。ドキュメンタリー監督が数時間の原始的な映像をアップロードし、「環境保護テーマのインスピレーションのあるストーリー」というヒントを与えるだけで、Vidi2は完全なスクリプトと編集アウトラインを生成します。これにより、反復プロセスが加速され、クリエイティブな表現の包容性も高まります。プロではないユーザーでも、シンプルな会話でプロ級の出力を実現できます。

業界への影響と今後の展望

Vidi2の登場により、グローバルなAIビデオ競争が激化しています。テンセント・テクノロジーはこれを機に、マルチモーダルAIの先端地位を強化しています。以前からMagicVideoシリーズでテキストからビデオ生成の可能性を示してきたものの、Vidi2は理解と編集のクローズドループに焦点を当てています。専門家はこのツールがコンテンツ産業の生態系を再構築し、製造コストを削減し、ショートビデオから長編形式への転換を推進すると予測しています。