先週、MiniMaxはそのビデオ人工知能モデル「Hailuo02」の第2世代バージョンを発表し、パフォーマンスと価格において大幅なアップグレードをもたらしました。この新しいモデルには「ノイズ感知計算リダイレクト(NCR)」というアーキテクチャが採用されており、MiniMaxによれば、この技術により訓練と推論の効率が2.5倍向上したとのことです。NCRアーキテクチャは、長時間のビデオシーケンスを処理する際、トレーニングの段階に応じて異なる方法が使われます。トレーニング初期では人工的なノイズが多く導入され、ビデオは可能な限り圧縮されます;一方で、ビデオがより鮮明になる段階になると、モデルはフル解像度で処理されます。
前バージョンと比較すると、Hailuo02のパラメーター数が3倍に増加し、トレーニングデータ量も4倍に拡張されました。MiniMaxはまた、データの質と多様性が改善されたことを強調しています。具体的なパラメーター数やデータセット規模については明かしていませんが、同社はHailuo02が複雑なプロンプトや物理プロセスのシミュレーションにおいて顕著な進展を遂げたことを示唆しています。さらにMiniMaxは、Hailuo02が現在、複雑なシーン(例えば体操アクション)を正確に生成できる唯一のモデルであると誇らしげに述べています。
Hailuo02には3つのバリエーションが用意されています:768p、6秒ビデオ、768p、10秒ビデオ、そして1080p、6秒ビデオ。一方、以前のバージョンは720p、6秒、25fpsに限定されていました。人工分析ビデオ競技場(Artificial Analysis Video Arena)の基準テストでは、Hailuo02が「画像からビデオ」カテゴリで第2位となり、ByteDanceのSeedanceに次ぐ結果でしたが、Googleの期待されるVeo3より上位でした。ただし、現行バージョンのVeo3は音声をサポートしていないため、その魅力に欠けます。
昨年8月のリリース以来、Hailuoプラットフォームを通じて37億以上のビデオが作成されました。MiniMaxは初期のプロモーションが比較的ランダムであったと述べましたが、迅速に世界中のクリエイターたちの注目を集めました。ユーザーはウェブインターフェース、モバイルアプリ、またはAPIを通じてモデルにアクセスできます。APIユーザーの場合、768p、6秒のビデオ生成のコストは0.28ドルで、1080p版は0.49ドルです。これに対し、GoogleのVeo3を使用して8秒間の1080pビデオを生成する場合、選択するプランによって約3ドルかかります。
MiniMaxは生成速度と安定性の改善、そしてテキストからビデオや画像からビデオの選択肢を超える新たな機能の追加に取り組んでいます。一方、Runwayなどの競合プラットフォームは既に進化した機能、例えばトラッキングショットなどを提供しています。Hailuo02のリリースは、MiniMaxが今週開催したイベントの一環であり、同社は同時にオープンソース言語モデル「MiniMax-M1」を発表し、パラメーター数と技術論文を公開しました。なお、Hailuo02のトレーニングアーキテクチャに関する具体的な技術詳細は現在未公開です。
ポイント:
🌟 Hailuo02はMiniMaxが新しく発表した第2世代のビデオAIモデルで、ノイズ感知計算リダイレクト(NCR)アーキテクチャを使用しており、トレーニングと推論の効率が2.5倍向上しました。
💰 このモデルはより高解像度で長いビデオを提供し、生成費用はGoogleのVeo3よりも低価格です。
📊 発売以来、Hailuoプラットフォームは37億以上のビデオを作成し、世界中の多くのクリエイターたちを引き寄せました。