在人工智能驅動的圖像生成與理解領域,儘管取得了快速進展,但仍存在顯著挑戰,阻礙了一個無縫、統一的方法的發展。
目前,專注於圖像理解的模型往往在生成高質量圖像方面表現不佳,反之亦然。這種任務分開的架構不僅增加了複雜性,還限制了效率,使得處理同時需要理解與生成的任務變得繁瑣。此外,許多現有模型在有效執行任何功能時,都過於依賴於架構修改或預訓練組件,這導致了性能權衡與整合挑戰。
爲了解決這些問題,DeepSeek AI 推出了 JanusFlow,這是一個強大的 AI 框架,旨在統一圖像理解與生成。JanusFlow 通過將圖像理解和生成集成到一個統一的架構中,來解決前面提到的低效問題。這一新穎的框架採用簡約設計,結合了自迴歸語言模型與糾正流(rectified flow)—— 一種最先進的生成建模方法。
通過消除對獨立的 LLM 和生成組件的需求,JanusFlow 實現了更爲緊密的功能集成,同時降低了架構複雜性。它引入了雙重編碼器 - 解碼器結構,解耦了理解和生成任務,並通過對齊表示來確保統一訓練方案中的性能一致性。
技術細節方面,JanusFlow 輕量高效地整合了糾正流與大型語言模型。該架構包括用於理解和生成任務的獨立視覺編碼器。在訓練過程中,這些編碼器相互對齊,以提高語義一致性,使系統在圖像生成和視覺理解任務中表現出色。
這種編碼器的解耦防止了任務之間的干擾,從而增強了每個模塊的能力。模型還採用了無分類器引導(CFG)來控制生成圖像與文本條件之間的對齊,從而提高圖像質量。與傳統的使用擴散模型作爲外部工具的統一系統相比,JanusFlow 提供了更簡單、更直接的生成過程,侷限性也更少。該架構的有效性體現在其能夠在多個基準測試中匹敵甚至超過許多特定任務模型的表現。
JanusFlow 的重要性在於其效率和多功能性,填補了多模態模型開發中的一個關鍵空白。通過消除對獨立生成和理解模塊的需求,JanusFlow 使研究人員和開發者能夠利用單一框架處理多種任務,顯著降低了複雜性和資源使用。
基準結果表明,JanusFlow 在 MMBench、SeedBench 和 GQA 上的得分分別爲74.9、70.5和60.3,表現優於許多現有的統一模型。在圖像生成方面,JanusFlow 超越了 SDv1.5和 SDXL,MJHQ FID-30k 得分爲9.51,GenEval 得分爲0.63。這些指標表明它在生成高質量圖像和處理複雜多模態任務方面的卓越能力,且僅需1.3B 參數。
結論是,JanusFlow 在開發能夠同時進行圖像理解與生成的統一 AI 模型方面邁出了重要一步。它的簡約方法 —— 專注於將自迴歸能力與糾正流整合 —— 不僅提升了性能,還簡化了模型架構,使其更高效、可訪問。
通過解耦視覺編碼器並在訓練過程中對齊表示,JanusFlow 成功架起了圖像理解與生成之間的橋樑。隨着 AI 研究不斷突破模型能力的邊界,JanusFlow 代表着朝着創造更具通用性和多功能性的多模態 AI 系統邁出的重要里程碑。
模型:https://huggingface.co/deepseek-ai/JanusFlow-1.3B
論文:https://arxiv.org/abs/2411.07975
劃重點:
🌟 JanusFlow 是一個統一框架,將圖像理解與生成集成於一個模型中,提高了效率和可操作性。
📈 該框架在多個基準測試中表現優越,尤其是在生成高質量圖像方面,超越了多個現有模型。
🔧 JanusFlow 通過解耦視覺編碼器,避免了任務間的干擾,並簡化了整體架構。