ComfyAI社は、自社開発したO1動画大規模モデルが本日午前0時から公開されたと発表しました。このモデルは、MVL(マルチモーダルビジョン言語)の統一インタラクションアーキテクチャを採用しており、テキスト、画像、動画を一度に一つの入力ボックスで処理し、初めて「チェーン・オブ・シンセシス」の推論経路を導入しています。公式はこれを「世界初の統一マルチモーダル動画大規模モデル」と呼びました。

業界で一般的なステップバイステップのプロセスとは異なり、O1モデルはテキストから動画への変換、画像から動画への変換、ローカル編集、ショット拡張などのタスクを一度に完了し、ユーザーがインターフェースを切り替える必要はありません。ComfyAIの製品責任者は、このモデルが多視点の主体構築技術を使用して、人物や物体の特徴を正確に捉え、カメラの移動中に発生する「特徴のズレ」問題を解決し、複数の主体が登場するシーンでの連続性を確保していると述べました。

