智譜AIが大規模な発表: セイイン2.0がリリースされ、テキストから1080Pの高精細動画を直接生成可能。最大10秒まで、動きの範囲、カメラワーク、スタイルの制御はすべてモデルが決定します。公式のテスト結果によると、画質と安定性はOpenAI Soraに近づいており、中国語のプロンプトの理解がより正確で、生成速度も速くなっています。

🤔Visual-spatial reasoning requires a shift from a.jpg

新バージョンは自社開発のCogVideoX大規模モデルを基盤としており、一度に複数の動画を生成でき、カメラのズームやパン、トラックなどの自由な指定が可能です。また、「ディレクター」のように画面のスタイルを「サイバーネオン」「中国風水墨画」「フィルムのレトロ調」など、一言で設定できます。智譜は同時にCogSound音響モデルも公開し、**動画生成後に自動的に環境音や動作音をマッチング**して、「視聴一体型」のAIクリエイティブの完結なフローを実現しています。

セイイン2.0はすでに智譜のQingyanアプリに組み込まれており、一般ユーザーは無料で試すことができます。企業向けにはAPIとオーケストレーション版の導入が可能で、金融、小売、広告、映画などの業界において専用のビデオモデルをカスタマイズすることが可能です。智譜によると、セイインリリース後1か月間で100万本以上の動画が生成され、今回のアップグレードにより**推論コストをさらに30%削減**し、「動画版のDALL·E」を家庭に届ける予定です。

プロジェクトのアドレス: https://yimingli-page.github.io/