先日終了した智譜マルチモーダルオープンソース週において、智譜チームはビデオ生成向けの4つの核心技術をオープンソース化することを発表しました。これらの技術は、智譜がマルチモーダルモデル分野で最新の進展を示すとともに、ビデオ生成の将来発展に堅実な基盤を築くものです。
過去1週間、智譜GLMチームは複数のマルチモーダルモデルを発表し、視覚理解、機器操作、音声処理などの分野をカバーしています。これらには、GLM-4.6V視覚理解モデル、AutoGLM機器制御モデル、GLM-ASR音声認識モデル、GLM-TTS音声合成モデルが含まれます。これらの技術の公開は、大規模モデルが人間に近い世界知識、記憶能力、複雑な推論能力を持つことを目的としています。

オープンソース週の最終日、智譜チームは4つの新技術:SCAIL、RealVideo、Kaleido、SSVAEを発表しました。これらの技術は、ビデオ生成分野の重要な課題を解決することに注力しています。これらは、細かく制御可能な生成、複雑な時空間構造モデリング、大規模なトレーニングコストの制御などに関係しています。
SCAIL技術は映画級のキャラクターアニメーション生成に注力しており、複雑なポーズを正確に制御し、生成されたキャラクターが運動中の構造的完全性を確保します。RealVideoはリアルタイムストリーム形式のビデオ生成システムであり、生成遅延を大幅に短縮し、わずか2〜3秒でビデオ出力を完了し、AIキャラクターとの会話がより自然でスムーズになります。
Kaleido技術は複数主体のビデオ生成に焦点を当てており、複数の主体間の一貫性を確保し、一般的な特徴の混同問題を回避します。一方、SSVAEはトレーニングプロセスを最適化し、ビデオ生成モデルのトレーニング効率を向上させ、同じ品質での収束速度を3倍にしました。

智譜チームは、これらの技術をオープンソース化することで、ビデオ生成技術コミュニティのイノベーションを促進し、開発者に対してより多くのエンジニアリングソリューションと研究の基礎を提供したいと考えています。同時に、智譜はさらに多くの開発者と協力して人工知能の未来を探求し、汎用人工知能(AGI)の実現を目指しています。
ポイント:
🌟 SCAIL: 映画級のキャラクターアニメーション生成を実現し、複雑なポーズ制御をサポート。
⚡ RealVideo: リアルタイムビデオ生成システムで、生成遅延はわずか2〜3秒。
🎨 Kaleido: 複数主体のビデオ生成フレームワークで、主体の一貫性を確保し、特徴の混同を避ける。
