アップル社は、その新たな動画生成モデル「STARFlow-V」を正式に発表しました。このモデルは、現在の主流となるSora、Veo、Runwayなどの競合と異なる基盤技術を採用しています。STARFlow-Vは業界で一般的な拡散モデル(Diffusion Model)を放棄し、「正規化フロー(Normalizing Flow)」技術を採用しています。この技術は、長時間の動画セグメント生成における安定性や誤りの蓄積問題を解決することを目指しています。

QQ20251208-102821.png

拡散モデルはノイズを除去するために複数ステップの反復処理を行いますが、STARFlow-Vのコアとなる「正規化フロー」技術は、ランダムノイズと複雑な動画データの間の数学的な変換を直接学習します。この根本的な違いにより、いくつかの利点が得られます:

  1. 訓練効率: 訓練プロセスは一度で完了し、複数回の小規模な反復は必要ありません。

  2. 生成速度: 訓練が完了すれば、反復計算なしに動画を生成できるため、生成速度が大幅に向上します。

  3. エラーの減少: 逐段的に生成する過程で生じるエラーが減ります。

アップルは、STARFlow-Vが拡散モデルと同等の視覚的品質と速度を持つ最初の技術であると述べています。並列処理と前のフレームデータの再利用により、5秒の動画生成速度は初期バージョンに比べて約15倍になりました。

 長動画の課題に対応する二層構造

長時間のシーケンスを生成することは、現在のビデオAI技術の課題です。逐フレームで生成すると誤差が累積しやすいため、STARFlow-Vは二層構造の方法を採用してこの問題を緩和しています:

  • 一つのコンポーネントがフレーム間の時系列(運動の一貫性)を管理します。

  • もう一つのコンポーネントが1フレーム内の詳細(画像品質)を最適化します。

この設計により、STARFlow-Vは30秒のデモセグメントにおいて安定性を保つことができました。一方、NOVAやSelf-Forcingなどの競合製品は数秒以内にぼやけたり、色の歪みが発生していました。

QQ20251208-102831.png

多機能性とパフォーマンス

このモデルは、以下のようなさまざまなタスクを変更せずに処理できます:

  • テキストから動画への変換(Text-to-Video)。

  • 画像から動画への変換(Image-to-Video)、入力画像を最初のフレームとして使用します。

  • 動画編集、ユーザーがオブジェクトの追加や削除を可能にします。

VBenchベンチマークテストでは、STARFlow-Vは79.7点を獲得しました。これはVeo3(85.06)やHunyuanVideo(83.24)といったトップレベルの拡散モデルには及ばないものの、他の自己回帰モデルに比べて明らかに優れています。特に空間関係や人体表現の面で優れた性能を示しています。

この技術革新にもかかわらず、STARFlow-Vには制限があります。解像度が比較的に低く(640×480、16fps)、現在は標準的なグラフィックカードでリアルタイムに使用できません

さらに重要なのは、このモデルが物理シミュレーションにおいて明らかな欠点を抱えている

アップルはこれらの制限を認め、今後の作業で計算速度の高速化、モデルサイズの縮小、より物理的精度に焦点を当てたトレーニングデータの使用