アップル社は最近、最新の動画生成モデル「STARFlow-V」をリリースしました。このモデルは、Sora、Veo、Runwayなどの市場上の競合と比べて技術面で明確な違いがあります。STARFlow-Vは長時間の動画セグメントの安定性を強化することに重点を置き、「正規化フロー」という技術を使用しています。これは現在主流の拡散モデルとは異なります。

image.png

アップル社によると、STARFlow-Vは視覚的品質と生成速度において拡散モデルに匹敵する最初の製品であり、出力解像度は640×480ピクセル、1秒あたり16フレームで生成します。拡散モデルが繰り返しイテレーションを行い徐々にノイズを除去するのとは異なり、STARFlow-Vはランダムノイズと複雑な動画データとの直接的な数学的変換を学習することで、一度のトレーニングで動画生成を完了し、トレーニング効率を大幅に向上させ、ステップ生成時に発生する可能性のあるエラーを減らしました。

このシステムは、標準的なテキストから動画への変換、画像から動画への変換(入力画像を最初のフレームとして使用)および動画編集などのさまざまなタスクを柔軟に処理できます。トレーニングの長さを超える動画に対しては、STARFlow-Vはスライディングウィンドウ技術を使用し、1つのセグメントを生成した後、最後の数フレームのコンテキストを保持して続きの生成を行います。ただし、デモのセグメントでは時間の変化が限られた多様性を見せています。

長いシーケンスを生成する際には、フレームごとに逐次生成することでエラーが蓄積する問題があります。この問題を解決するために、STARFlow-Vは二重構造を採用しています。一つはフレーム間の時間系列管理を担当し、もう一つは単一フレームの詳細最適化に焦点を当てています。安定した最適化プロセスのために、アップルはトレーニング中に一定量のノイズを追加しましたが、これにより動画がややノイズが多くなる可能性があります。しかし、並列的な「因果的ノイズ除去ネットワーク」によって、動きの整合性を保ちながら残ったノイズを除去します。

トレーニング中にアップルは7,000万対のテキスト-ビデオデータと400万対のテキスト-画像データを使用し、言語モデルを利用してビデオの説明を9つの異なるバリアントに拡張しました。何週間かのトレーニングの結果、モデルのパラメータは30億から70億に増加し、解像度やビデオの長さも引き続き向上しています。

STARFlow-VはVBenchベンチマークテストでのスコアが79.7で、いくつかの先進的な拡散モデルよりもやや劣るものの、自己回帰モデルの中で優れた性能を示しており、空間関係や人間の表現において顕著な優位性を示しています。今後、アップルは計算速度の改善、モデルの最適化、そして物理的正確性に重点を置いたトレーニングデータの強化に取り組んでいきます。

ポイント:

🌟 STARFlow-Vは正規化フロー技術を使用し、長時間の動画セグメント生成の安定性と効率を向上させています。

⚙️ このモデルは、さまざまな動画生成および編集タスクをサポートしており、高い柔軟性を示しています。

🚀 アップルは今後、計算速度と物理的正確性を改善し、動画生成技術の発展を継続的に推進していきます。