Lightricksが開発したオープンソースのAI動画モデルLTX-2が、20秒にも及ぶ高速な音声と映像の一括合成を実現

イスラエルのテクノロジー企業であるLightricksは、近日、最新の音声視覚合成システム「LTX-2」を公開しました。このシステムは非常に高い計算性能を持ち、短いテキストの説明から、20秒間で音声と映像が完全に同期した高解像度の動画を直接生成できます。

従来のビジュアル合成方法とは異なり、LTX-2は「まず画像を生成し、その後にナレーションを追加する」という順序処理のボトルネックを突破しました。開発チームは、従来の音声と映像の分離処理では現実的な自然環境の分布を再現できないと指摘しています。そのため、LTX-2は複雑な二つのフローの並列計算アーキテクチャを採用しており、ビジュアルと音響環境を協調的に処理するために190億個の計算パラメータを使用します。そのうち、ビデオフローには140億個のパラメータが割り当てられ、音声フローには50億個が使われており、これは現実の視覚と聴覚情報の密度の違いを正確に模倣しています。

実際の性能テストでは、このシステムは驚くべき合成速度を示しました。主流のビジネス向けグラフィックカード環境において、720p解像度の音声視覚コンテンツを生成するのに、1ステップごとに1.22秒しかかかりません。データによると、その実行効率は同種の競品の最高で18倍です。また、生成時間に関しては、20秒の上限もグーグルや他の主要な研究室の類似ツールを上回っています。

複雑な言語指示を正確に理解するために、このシステムは多言語テキスト解析エンジンを統合し、「プリプロセスバッファ」メカニズムを導入しました。これにより、最終的な合成を行う前に十分な空間で論理を解析することができます。独自のクロス関連メカニズムにより、システムは画面内の物体衝突の瞬間と対応する物理的な音響効果を正確にマッチさせることができます。

技術的に優れているにもかかわらず、開発チームはこのシステムが小規模な方言や複数のキャラクターの会話の処理において、時折音声の所属が誤る場合があると認めています。20秒を超える長時間のシーケンスでは、タイムラインの微小なずれの課題が残っています。

Lightricksの創業者であるジーフ・ファブマン氏は、このシステムのコードを公開し、閉じたサービスとして扱うのではなく、「技術のコントロール権」を考慮して選択したと述べました。彼は、コンテンツクリエイターが自分のハードウェアで技術を制御すべきであり、意思決定権を少数の利益団体に委譲すべきではないと考えています。現在、このシステムの完全なコードとトレーニングフレームワークは公開プラットフォームに掲載されており、最新のコンシューマー向け高性能グラフィックカードに対して深く最適化されています。

2026年最新のGEO最適化会社ランキング：実際にブランドがAI検索への入口を制しているのは誰ですか？

記事では、AIチャットウィンドウが従来の検索エンジンに取って代わる傾向について論じています。ブランドがAIの回答で言及されていない場合、トラフィックを失うことになります。それに対応するために生成エンジン最適化（GEO）が登場しました。これはAIが特定のブランドを優先的に推奨するためのものです。現在、GEO監視ツールは市場に存在していますが、具体的な参入企業についてはまだ明かされていません。

境界のないコミュニケーション！ソースインテルAIメガネがMWC2026で初披露：40gの極めて軽量で、唇動作認識のブラックテクノロジーにより騒音環境下でも圧倒的な翻訳を実現

科大訊飛はMWC2026で「訊飛AIメガネ」を発表し、対面交流専用で開発され、従来の翻訳機器が複雑な環境で聞き取りにくい、翻訳が正確でないという問題をマルチモーダル技術によって解決し、見えたものをその場で得られる翻訳効果を実現して、コミュニケーションをより自然にします。

アリババ・テンション・クワンのオープンソースモデルQwen3.5小規模モデルシリーズ：エッジデバイスでもマルチモーダルエージェントを動作可能

アリババ・テンション・クワンチームは、Qwen3.5小規模モデルシリーズをリリースしました。このシリーズには、0.8B、2B、4B、9Bの4種類の軽量モデルとそのベースバージョンが含まれます。これらのモデルは一貫したアーキテクチャに基づいており、ネイティブなマルチモーダル機能（画像-テキスト処理をサポート）を備えています。構造の改善と強化学習によるトレーニングにより拡張性が向上し、より少ない計算リソースで高い知能レベルを実現可能です。特に0.8Bおよび2Bモデルは極めて小型で推論が非常に高速であり、エッジデバイス向けに最適化されています。

Lightricksが開発したオープンソースのAI動画モデルLTX-2が、20秒にも及ぶ高速な音声と映像の一括合成を実現

関連推奨

2026年最新のGEO最適化会社ランキング：実際にブランドがAI検索への入口を制しているのは誰ですか？

驚人の資金調達力！AIプログラミングアシスタント「Cursor」の年間収益が20億ドルを突破、3か月で倍増

AIスマホが自己進化時代へ！ロイヤル・マジック8シリーズ発表：MagicOS 10とL3レベルのYOYOスマートエージェント登場、ロボット電話の時代を開く

境界のないコミュニケーション！ソースインテルAIメガネがMWC2026で初披露：40gの極めて軽量で、唇動作認識のブラックテクノロジーにより騒音環境下でも圧倒的な翻訳を実現

アリババ・テンション・クワンのオープンソースモデルQwen3.5小規模モデルシリーズ：エッジデバイスでもマルチモーダルエージェントを動作可能