グーグルのエクセレントビデオ生成モデルVeo3は現在、開発者向けにGemini APIを通じて公開されており、テキストからビデオを作成する機能を提供し、同期音声の生成もサポートしています。この取り組みはAIによるビデオ制作が新たな段階に入ったことを示しており、一方でより高いコストを伴うことも事実です。
Veo3は、単一のテキストプロンプトを使用して高解像度のビデオを生成し、会話、音楽、サウンド効果を同期して生成できるグーグル初のモデルです。現在、Gemini APIはテキストからビデオへの変換機能に限定されていますが、グーグルはGeminiアプリで既にリリースされている画像からビデオへの変換機能も近日中にリリースする予定であると述べています。
自身のアプリケーションに高度なビデオ生成機能を統合したり、生産可能なプロトタイプを構築したい開発者にとって、今回のAPI統合は強力な支援となります。Google AI Studioでは、開発者が迅速に始めるためのSDKテンプレートやサンプルアプリが提供されています。このAPIにアクセスするには、料金支払い機能が有効になっているアクティブなGoogle Cloudプロジェクトが必要です。グーグルによると、Veo3はGeminiアプリ、Flow、Vertex AIで何百万回も使用されています。
しかし、Veo3の価格はAIビデオ生成分野において比較的高価な選択肢の一つとなっています。Gemini APIを通じてVeo3にアクセスすることはGoogle Cloudの有料プランでのみ可能です。例えば、720p、24fpsのビデオ(16:9フォーマットの音声付き)の場合、1秒あたり0.75ドルであり、音声なしのVeo2よりも25セント高くなります。つまり、8秒のビデオには6ドルかかり、5分のビデオには225ドルかかるということになります。通常、理想の結果を得るために複数回試行が必要になるため、実際のコストは急速に増加することがあります。たとえば、5分の利用可能なビデオを作るために10倍の素材が必要な場合、総コストは2,250ドルになるかもしれません。それでも、グーグルは特定のユースケースにおいて、これは従来のビデオ制作よりもコスト効率が高いと考えているようです。また、グーグルは「Veo3Fast」モードを発表しました。このモードは高速かつ低コストですが、現時点ではAPIで利用できません。
現在、Veo3の応用は主に専門的な領域に集中しています。たとえば、CartwheelはVeo3を利用して2Dビデオをリアルな3Dキャラクターアニメーションに変換し、生成された動きを顧客プロジェクトのアセンブリモデルにマッピングしています。ゲームスタジオのVolley