マルチモーダルAIのリーディングカンパニーであるElevenLabsが発表: 新たな「Image & Videoプラットフォーム」が正式リリース!これは単なる音声ツールではなく、画像生成、動画生成、音声合成、音楽制作、サウンドデザインを一つにまとめたスーパーアイコントンツールです。これにより、クリエイターとマーケティング担当者は複数のプラットフォームを切り替える必要がなくなり、ワンクリックで脚本から完成品レベルの商業映像まで作成することが可能になります。

image.png

一元化されたフロー:ゼロから完成品までの動画作成は1つのプラットフォームで

新プラットフォームは視覚生成とElevenLabsが誇る音声機能を完全に統合しています。ユーザーはまず画像や動画を生成し、同じ画面内でプロ級のナレーション、バックグラウンドミュージック、環境サウンド効果を直接追加できます。この流れは完璧に連携されています。公式によると、コンセプトから直接広告用として利用可能な動画に至るまで、最速で数分で完了するという、AIコンテンツ生産効率を再定義しています。

モデルチームが集結:最高の視覚と最高の聴覚が共に登場

Image & Videoプラットフォームでは世界中の最も強力なマルチモーダルモデルの行列を一度に統合しています。それは以下の通りです:

Google Veo(超長時間の一貫性を持つ動画)

OpenAI Sora(映画品質の画像質感)

Kling(超現実的な物理的アニメーション)

Nanobanana、Flux Kontext、Seedreamなど、新進気鋭のNanobanana、Flux Kontext、Seedream などのモデルとElevenLabsが独自開発した世界で最も自然なAI音声と最新の音楽生成モデルを組み合わせることで、ユーザーは自由に「最高の視覚」と「最高の聴覚」を混ぜ合わせ、単一モデルの組み合わせよりも優れた結果を得ることができます。

ビジネス向けに設計:マーケターは黙って見入る、ショートビデオブロガーは涙を流す

プラットフォームはクリエイターとマーケティング担当者に対して深く最適化されています:

縦型・横型等多种類の比率を直接出力でき、TikTok、抖音(ドウイン)、小紅書、YouTubeなどに適合します。

商業的に安全な音声と音楽ライブラリが内蔵されており、生成されたコンテンツは広告掲載に直接使用可能です。

ワンクリックでナレーション言語を変更し、多言語バージョンを作成することが可能です。

タイムライン編集器を提供しており、フレーム単位の音声と映像の同期調整が可能です。

実際の効果は爆発的:30秒のブランド広告が5分で完成

公式のデモ例によると、30秒のテキストだけで以下を行うことができます:

ブランドストーリーボード画像を生成 → 2. 流れる動画に変換 → 3. CEOレベルの自然なナレーションを追加 → 4. 感情を引き起こす背景音楽と環境音を重ねる → 5. 4K商用作品をエクスポートする。Premiere、Midjourney、Runway、Sunoなどを使ってファイルを繰り返しやり直す必要はありません。

AIbase編集部の評価:

ElevenLabsによるこの行動は、「テキストから動画」への壁をさらに高くしました。恐ろしいことに、最も難しい音声と映像の同期問題を一度に解決してしまいました。視覚生成と音声生成の両大王が一体となったことで、独立系クリエイターと中小企業にとって真の次元違いの時代が始まります。このアップデートによって、何人の編集者や吹き替え者が「職を失う」ことになるのか知りたいものですか?