今日は、騰訊混元モデルチームが最新の動画生成モデルである「HunyuanVideo1.5」を正式にリリースしました。これは動画生成技術における新たな重要な進展を示しています。この軽量モデルは、Diffusion Transformer(DiT)アーキテクチャに基づいており、パラメータ数は8.3Bで、高解像度の5〜10秒の動画を生成できます。すでに騰訊の「元宝(Baobao)」プラットフォームで公開され、ユーザーに体験用に提供されています。

HunyuanVideo1.5はさまざまな生成方法をサポートしており、ユーザーはテキスト説明(Prompt)を入力することで「テキストから動画」を作成できます。また、画像とテキストを組み合わせてアップロードすることで、静止画を簡単に動画に変換することが可能です。この革新技術は中英文入力のニーズに対応し、画像と動画の一貫性を示しており、生成された動画が元の画像のトーン、光と影、シーン、主体および詳細などにおいて高い一致を保証しています。
具体的な応用では、ユーザーはプロンプトをもとに複雑なシナリオを生成できます。例えば、あるプロンプトでは「スーツケースの中にミニチュアのイギリス風庭園がどのように成長するか」が記述されており、モデルはその過程を正確に描写し、高度な指示理解と実行能力を示しています。さらに、HunyuanVideo1.5は現実的、アニメーションなどのさまざまなスタイルをサポートしており、動画内に中英文の文字を生成できるため、コンテンツ制作の可能性を大幅に拡張しています。
技術的には、HunyuanVideo1.5は独自のSSTA疎れ注視機構を採用しており、推論効率を著しく向上させています。また、多段階の進行的なトレーニング戦略と組み合わせることで、運動の連続性や意味の遵守などの重要な次元において商用レベルに達しています。このモデルの導入ハードルは顕著に低下しており、14GBのメモリを持つコンsumer級GPUでもスムーズに動作可能であり、すべての開発者やクリエイターが動画生成の革新に参加できるようになります。

これまで動画生成分野のオープンソースSOTAエンドモデルは通常、20B以上のパラメータと50GBのVRAMを必要としていましたが、HunyuanVideo1.5のリリースにより、生成効果に質的な飛躍を遂げただけでなく、性能とサイズのバランスも取っています。現在、このモデルはHugging FaceとGitHubにアップロードされており、広く開発者にダウンロードして体験することをお勧めします。
HunyuanVideo1.5の登場により、騰訊は人工知能と動画生成分野でのリーダー的地位をさらに強化し、コンテンツクリエイターにより強力なツールと無限の創作可能性を提供しています。今後、技術の継続的な発展とともに、動画生成の応用範囲はさらに広がり、HunyuanVideo1.5が業界に新たな変革をもたらすことを期待しています。
