可靈AI公司宣佈,其自主研發的O1視頻大模型已於今日零時起面向公衆全量開放。該模型採用MVL(多模態視覺語言)統一交互架構,在單一輸入框內融合文字、圖像、視頻三種指令,並首次引入Chain-of-Thought推理鏈路,官方稱其爲“全球首個統一多模態視頻大模型”。

與業界常見的分步式流程不同,O1模型可一次性完成文生視頻、圖生視頻、局部編輯及鏡頭延展任務,無需用戶切換界面。可靈AI產品負責人表示,模型通過多視角主體構建技術鎖定人物與物體特徵,解決鏡頭切換時出現的“特徵漂移”問題,確保多主體場景畫面連貫。

目前,O1模型已在可靈App及官網同步開放體驗,支持3–10秒時長自由設定,面向短視頻創作者、廣告團隊及個人用戶。公司透露,後續將開放API接口,供第三方平臺集成。行業分析師認爲,O1的上線或進一步降低AI視頻製作門檻,但能否在生成質量與成本效率之間取得平衡,仍有待市場檢驗。
