2025年7月、Bilibili(B站)はオープンソースのアニメ動画生成モデルAniSoraが大きなアップデートを遂げ、正式にAniSora V3をリリースしたことを発表しました。Index-AniSoraプロジェクトの一環として、V3バージョンは従来のものよりも生成品質、動作のなめらかさ、スタイルの多様性をさらに最適化し、アニメ、マンガ、VTuberコンテンツクリエイターにとってより強力なツールを提供しています。AIbaseはAniSora V3の技術的進歩、応用分野および業界への影響について詳しく解説します。
技術アップグレード:より高品質と正確なコントロール
AniSora V3は、Bilibiliが以前にオープンソースとしたCogVideoX-5BとWan2.1-14Bモデルを基盤とし、強化学習と人間のフィードバック(RLHF)フレームワークを組み合わせることで、生成されたビデオの視覚的品質と動作の一貫性を大幅に向上させました。このモデルは、ワンクリックで様々なスタイルのアニメ動画シーンを生成でき、ドラマのカットや中国オリジナルアニメ、マンガのビデオ変換、VTuberコンテンツなども対応しています。
主なアップグレード内容:
- 時空間マスクモジュール(Spatiotemporal Mask Module)の最適化:V3では時空間制御能力が強化され、より複雑なアニメーションタスクに対応可能になりました。例えば、細かなキャラクターの表情制御、動的なカメラ移動、局所的な画像ガイド生成などが可能です。例として、「5人の女の子がカメラズーム時に踊り、左手を頭上に上げてから膝まで下げる」というプロンプトで、スムーズなダンスアニメーションを生成できます。カメラの動きとキャラクターの動作が自然に同期します。
- データセットの拡張:V3は1000万以上の高品質なアニメビデオセグメント(100万本の元のビデオから抽出)に基づいてトレーニングされており、新規のデータクリーニングフローを追加して、生成内容のスタイルの一貫性と詳細の豊かさを確保しています。
- ハードウェアの最適化:V3では、華為(Huawei)のAscend910B NPUのネイティブサポートが追加され、完全に国内チップでトレーニングが行われています。推論速度は約20%向上し、4秒のハイビジョンビデオの生成には2〜3分で済みます。
- マルチタスク学習:V3ではマルチタスク処理能力が強化され、単一フレーム画像からビデオ生成、キーフレーム補間、口唇同期などの機能がサポートされます。特にマンガの変換やVTuberコンテンツ制作に適しています。
最新のベンチマークテストにおいて、AniSora V3はVBenchおよび二重盲検主観テストにおいて、キャラクターの一貫性と動作のなめらかさが業界最高水準(SOTA)に達しています。特に、物理法則に反する過激なアニメーションの動作など、複雑な動きの処理において突出しています。
オープンソースエコシステム:コミュニティ主導と透明な開発
AniSora V3の完全なトレーニングおよび推論コードは、2025年7月2日にGitHub上で更新されました。開発者はHugging Faceを通じてモデルの重みと948本のアニメビデオを含む評価データセットにアクセスできます。BilibiliはAniSoraが「アニメ世界へのオープンソースの贈り物」であると強調し、コミュニティによるモデルの最適化を奨励しています。ユーザーは指定されたメールアドレス(例:yangsiqian@bilibili.com)に申請書を送信することで、V2.0の重みと完全なデータセットへのアクセス権を得ることができます。
V3では、アニメビデオ生成向けの最初のRLHFフレームワークが導入され、AnimeRewardやGAPOなどのツールを用いてモデルの微調整が行われており、出力が人間の美意識やアニメスタイルに合致するように保証されています。コミュニティの開発者たちはすでにV3を基にカスタマイズ可能なプラグインを開発しており、例えば吉卜力風などの特定のアニメスタイルの生成効果を強化するものです。
応用分野:創造からビジネスへ
AniSora V3は、日本のアニメ、中国オリジナルアニメ、マンガの変換、VTuberコンテンツ、そして風刺的なアニメ(鬼畜動画)を含む多様なアニメスタイルをサポートしており、90%のアニメビデオの応用場面をカバーしています。具体的な応用例は以下の通りです:
- 1枚の画像から動画へ:ユーザーは高品質なアニメ画像をアップロードし、テキストのプロンプト(例:“キャラクターが走る車の中で手を振っており、髪が風で揺れている”)を付けることで、キャラクターの細部とスタイルが一致した動画を生成できます。
- マンガの変換:マンガのフレームから口唇同期と動作のあるアニメーションを生成し、予告編や短編アニメの迅速な制作に適しています。
- VTuberとゲーム:リアルタイムでキャラクターのアニメーションを生成し、独立系クリエイターおよびゲーム開発者に役立ちます。
- 高解像度出力:生成された動画は最大1080pに達し、SNSやストリーミングプラットフォームでの専門的な表示を確保します。
AIbaseのテストによると、V3は複雑なシーン(複数のキャラクターの相互作用、動的な背景など)を生成する際、V2に比べて約15%のノイズ問題を減少させ、平均して4秒の動画生成に2.5分で済みます。
AniSora V3のリリースにより、アニメ制作の障壁がさらに低下し、独立系クリエイターおよび小規模チームが低コストで高品質なアニメ制作が可能になりました。OpenAIのSoraやKlingといった汎用動画生成モデルとは異なり、AniSora V3はアニメ専門に特化しており、市場の空白を埋めています。また、ByteDanceのEX-4Dと比較すると、AniSora V3は2D/2.5Dアニメスタイルに焦点を当てており、4D多角度生成ではなく、異なる技術的アプローチを示しています。
プロジェクト:https://t.co/I3HPKPvsBV