テンセントは、新たに開発した画像から動画を生成するフレームワーク「HunyuanVideo-I2V」をオープンソースとして公開することを発表しました。このモデルの公開は、HunyuanVideoのオープンソース化に続く重要な進展であり、オープンソースコミュニティの更なる発展を促進することを目指しています。

HunyuanVideo-I2Vは、高度な動画生成技術を組み合わせることで、静止画を生き生きとした動画に変換でき、クリエイターに新たな可能性を提供します。
HunyuanVideo-I2Vは、事前学習済みのマルチモーダル大規模言語モデルをテキストエンコーダーとして利用することで、入力画像のセマンティックな内容に対する理解能力を大幅に向上させています。つまり、ユーザーが入力した画像からモデルがセマンティックな画像タグを生成し、これらのタグと動画の潜在的なタグを組み合わせることで、より包括的なフルアテンション計算を実現します。この方法により、システムは画像とテキストのモーダル間の協調作用を最大限に発揮し、静止画から生成される動画の内容がより一貫性があり、リアルなものになるよう保証します。
HunyuanVideo-I2Vを使用して動画を生成したいユーザーのために、テンセントは詳細なインストールガイドと使用方法を提供しています。ユーザーは一定のハードウェア要件を満たす必要があり、最適な動画生成品質を実現するには、少なくとも80GBのVRAMを搭載したNVIDIA GPUを使用することを推奨しています。また、最大720Pの解像度と129フレーム(約5秒)の長尺動画生成に対応しています。
ユーザーがより効果的にこのモデルを使用できるように、テンセントはいくつかのヒントも共有しています。例えば、プロンプトを作成する際には簡潔さを心がけ、動画の主なテーマ、アクション、背景など、主要な要素を網羅するようにしてください。
プロジェクト:https://github.com/Tencent/HunyuanVideo-I2V?tab=readme-ov-file
