このたび、B站はオープンソースのアニメ動画生成モデル「AniSora」に重要なアップデートを実施し、バージョンが「AniSora V3」に更新されました。このアップデートにより、動画の品質と滑らかさが向上し、アニメスタイルの多様性も拡張され、アニメ、漫画、VTuberコンテンツクリエイターにさらに強力なツールを提供しています。

AniSora V3の特徴はその豊富な機能です。このモデルは1クリックでさまざまなスタイルのアニメ動画シーンを生成でき、ドラマのクランプ、中国アニメ、マンガアレンジ、鬼畜(MAD)など幅広い内容に対応します。B站が以前オープンソースしたCogVideoX-5BとWan2.1-14Bモデルを基盤として、V3バージョンは強化学習と人間のフィードバック(RLHF)技術を組み合わせ、動画の視覚的品質と動作の一貫性を大幅に向上させました。

image.png

具体的には、AniSora V3は時空間マスクモジュールを導入しており、これにより複雑なアニメーションタスクの処理能力が向上しています。例えば、「5人の女の子がカメラズーム時に踊る」というシンプルなプロンプトを用いることで、スムーズで自然なダンスアニメーションを生成でき、カメラとキャラクターの動きが非常にうまく同期します。また、V3バージョンではデータセットが拡張され、1000万を超える高品質なアニメ動画セグメントを用いてトレーニングを行っており、生成されるコンテンツのスタイルや細部の一貫性を保証しています。

ハードウェア面では、AniSora V3は華為(Huawei)のAscend910B NPUへのサポートを追加しました。国内チップを基盤としたトレーニングにより、推論速度が約20%向上しました。4秒の動画生成にはわずか2〜3分で完了し、効率が大きく向上しています。また、V3はマルチタスク処理能力にも大幅な改善があり、単一フレーム画像から動画生成、キーフレーム補間、唇の同期などの機能をサポートし、特に漫画のアレンジやVTuberコンテンツの迅速な制作に適しています。

最新のベンチマークテストによると、AniSora V3はキャラクターの一貫性と動作のなめらかさにおいて業界トップレベルに達しています。特に複雑なアニメーション動作の処理において優れた性能を発揮します。また、V3はアニメ動画生成に特化したRLHFフレームワークを導入しており、生成されたコンテンツが人間の審美に合致するようにしています。開発者たちはすでにV3を使ってカスタムプラグインを作成し、特定のアニメスタイルの生成効果をさらに向上させています。

AniSora V3は技術的にも突破的な進歩を遂げており、クリエイターにとって有望な創作プラットフォームを提供しています。予告編や短編アニメの制作に関しても、ユーザーが自分のアイデアを迅速に実現できるようサポートします。

オープンソースの場所:https://github.com/bilibili/Index-anisora/tree/main