グーグルは4月2日に、企業向けのビデオクリエイションアプリ「Vids」に大きなアップデートを導入することを発表しました。Veo3.1動画生成モデルと自然言語インタラクション技術を統合することで、静的な生成から動的な「指示制御」への飛躍を実現しています。 このアップデートの核となるのは、AI仮想キャラクターに強力な対話能力を付与することです。ユーザーは簡単なテキストのヒントを入力するだけで、キャラクターがシーン内で製品、小物、または機器と特定のインタラクションを行うように指示でき、動的な出力においてもキャラクターの視覚の一貫性を維持できます。

また、Vidsは多モーダル機能をさらに統合し、最近導入されたLyria3シリーズの音声モデルの上に、Veo3.1の導入により8秒間の動画セグメントを生成できるようになりました。一般ユーザーおよび企業の高価格プランアカウントにはそれぞれ月10回〜1000回までの生成枠が提供されています。

QQ20260403-091357.jpg

ワークフローの閉鎖を実現するために、Google VidsはYouTubeへの直接エクスポート機能を追加し、新規のChrome録画拡張機能と組み合わせて、素材の取得から完成品の配信に至るまで一連のプロセスを構築しました。

一方で、人工知能分野の競争状況は日々激化しており、マイクロソフトは同日、MAIシリーズの3つのベースモデルを発表しました。このモデル群は25種類の言語に対応し、音声トランスクリプション、音声生成、および動画生成の能力を備えており、より低コストでグーグルやOpenAIの市場地位に挑戦する狙いがあります。

グーグルは2024年にVidsをリリースして以来、3Dアニメキャラクターや複数言語対応の迅速な進化を遂げました。このようなプロンプトに基づく精密なコントロール機能は、AI動画ツールが単純なコンテンツ生成からより専門的な深さを持つ自動演出段階へと進化していることを示しており、企業のコンテンツ制作のコスト構造とクリエイティブな境界をさらに変革していくことになります。