イスラエルのテクノロジー企業であるLightricksは、近日、最新の音声視覚合成システム「LTX-2」を公開しました。このシステムは非常に高い計算性能を持ち、短いテキストの説明から、20秒間で音声と映像が完全に同期した高解像度の動画を直接生成できます。

従来のビジュアル合成方法とは異なり、LTX-2は「まず画像を生成し、その後にナレーションを追加する」という順序処理のボトルネックを突破しました。開発チームは、従来の音声と映像の分離処理では現実的な自然環境の分布を再現できないと指摘しています。そのため、LTX-2は複雑な二つのフローの並列計算アーキテクチャを採用しており、ビジュアルと音響環境を協調的に処理するために190億個の計算パラメータを使用します。そのうち、ビデオフローには140億個のパラメータが割り当てられ、音声フローには50億個が使われており、これは現実の視覚と聴覚情報の密度の違いを正確に模倣しています。

QQ20260112-110008.png

実際の性能テストでは、このシステムは驚くべき合成速度を示しました。主流のビジネス向けグラフィックカード環境において、720p解像度の音声視覚コンテンツを生成するのに、1ステップごとに1.22秒しかかかりません。データによると、その実行効率は同種の競品の最高で18倍です。また、生成時間に関しては、20秒の上限もグーグルや他の主要な研究室の類似ツールを上回っています。

複雑な言語指示を正確に理解するために、このシステムは多言語テキスト解析エンジンを統合し、「プリプロセスバッファ」メカニズムを導入しました。これにより、最終的な合成を行う前に十分な空間で論理を解析することができます。独自のクロス関連メカニズムにより、システムは画面内の物体衝突の瞬間と対応する物理的な音響効果を正確にマッチさせることができます。

QQ20260112-110018.png

技術的に優れているにもかかわらず、開発チームはこのシステムが小規模な方言や複数のキャラクターの会話の処理において、時折音声の所属が誤る場合があると認めています。20秒を超える長時間のシーケンスでは、タイムラインの微小なずれの課題が残っています。

Lightricksの創業者であるジーフ・ファブマン氏は、このシステムのコードを公開し、閉じたサービスとして扱うのではなく、「技術のコントロール権」を考慮して選択したと述べました。彼は、コンテンツクリエイターが自分のハードウェアで技術を制御すべきであり、意思決定権を少数の利益団体に委譲すべきではないと考えています。現在、このシステムの完全なコードとトレーニングフレームワークは公開プラットフォームに掲載されており、最新のコンシューマー向け高性能グラフィックカードに対して深く最適化されています。