Ostris團隊發佈Flex.2-preview,一款基於8億參數的文本到圖像擴散模型,專爲集成到ComfyUI工作流設計。據AIbase瞭解,該模型在基於線條、姿態和深度的控制生成能力上表現出色,支持通用控制與圖像修補功能,延續了從Flux.1Schnell到OpenFlux.1、Flex.1-alpha的微調進化路徑。Flex.2-preview已在Hugging Face開源,憑藉Apache2.0許可證與靈活的工作流集成,迅速成爲AI藝術創作社區的焦點。

核心功能:通用控制與工作流無縫集成
Flex.2-preview以其強大的控制能力與ComfyUI原生支持重新定義了文本到圖像生成。AIbase梳理了其主要功能:
通用控制支持:內置線條(Canny)、姿態和深度控制,允許用戶通過控制圖像精確引導生成結果,如基於深度圖生成3D風格場景或基於線稿生成精細插圖。
圖像修補能力:支持高級圖像修補(inpainting),用戶可通過掩碼指定區域進行內容替換或修復,如將狗替換爲“白色機器人狗坐在長椅上”。
ComfyUI工作流集成:模型專爲ComfyUI優化,提供節點化工作流支持,簡化複雜任務的配置,如文本到圖像、圖像到圖像與控制網絡的組合。
高效生成:基於8億參數的精簡架構,生成1024x1024高分辨率圖像僅需50步推理,適合16GB VRAM的消費級GPU。
AIbase注意到,社區測試中,用戶利用Flex.2-preview的控制節點生成了一幅“賽博朋克城市夜景”,通過深度圖與線條控制實現了高度一致的構圖,展現了其在創意設計中的潛力。

技術架構:從Flux.1Schnell到Flex.2的進化
Flex.2-preview基於Black Forest Labs的Flux.1Schnell,經過多階段微調與優化。AIbase分析,其技術演進包括:
架構優化:繼承Flux.1的整流流變換器(Rectified Flow Transformer)架構,擁有8個雙變換器塊(相比Flux.1-dev的19個更輕量),通過指導嵌入器(Guidance Embedder)消除對分類器自由引導(CFG)的依賴。
控制與修補集成:採用16通道潛在空間設計,結合噪聲潛在、變分自編碼器(VAE)編碼的修補圖像、掩碼與控制輸入,共49通道,支持靈活的控制與修補工作流。
開源與微調支持:通過AI-Toolkit提供微調工具,開發者可繞過指導嵌入器進行定製化訓練,生成特定風格或主題的模型,保留Apache2.0許可證的商業友好性。
高效推理:支持FP8與bfloat16精度,通過TorchAo的8位量化降低內存佔用,優化了在RTX3090等硬件上的推理速度。
AIbase認爲,Flex.2-preview的輕量化設計與通用控制能力使其成爲ComfyUI生態的理想選擇,相比Flux.1Schnell在複雜工作流中的表現更爲靈活。
應用場景:從藝術創作到商業設計
Flex.2-preview的多功能性使其適用於多種創意與商業場景。AIbase總結了其主要應用:
數字藝術與插圖:藝術家可通過線條與深度控制快速生成概念藝術或插圖,適合遊戲美術與動畫預可視化。
廣告與品牌設計:利用圖像修補功能快速調整廣告素材,如替換產品或背景,同時保持品牌風格一致性。
影視與內容創作:支持基於姿態控制的角色設計或場景生成,加速故事板與視覺效果開發。
教育與原型設計:爲教學或產品原型提供低成本的圖像生成方案,學生與初創企業可快速迭代視覺創意。
社區反饋顯示,Flex.2-preview在處理複雜提示(如“蒸汽朋克機械師在工廠修理機器人”)時,生成的圖像細節與控制精度超越OpenFlux.1,尤其在手部與文本生成上接近MidJourney水平。AIbase觀察到,其與XLabs的ControlNet集成的能力進一步增強了工作流多樣性。
上手指南:快速部署與ComfyUI集成
AIbase瞭解到,Flex.2-preview的部署對ComfyUI用戶極爲友好,硬件要求爲16GB VRAM(推薦RTX3060或更高)。開發者可按以下步驟快速上手:
從Hugging Face下載Flex.2-preview.safetensors(huggingface.co/ostris/Flex.2-preview),放置於ComfyUI/models/diffusion_models/;
從 Hugging Face 下載 Flex.2-preview.safetensors(huggingface.co/ostris/Flex.2-preview),放置於 ComfyUI/models/diffusion_models/;
確保ComfyUI已更新至最新版本(通過ComfyUI Manager的“Update All”),並安裝必需的CLIP模型(t5xxl_fp16.safetensors與clip_l.safetensors)與VAE(ae.safetensors);
下載官方提供的flex2-workflow.json,拖入ComfyUI加載工作流,配置提示詞與控制圖像(如深度圖或線稿);
運行推理,調整control_strength(推薦0.5)與guidance_scale(推薦3.5),生成1024x1024圖像。
社區建議使用提供的Diffusers示例代碼或ComfyUI的Flex2Conditioning Node以優化生成效果。AIbase提醒,首次運行需確保安裝torch、diffusers與transformers庫,並檢查工作流中的節點連接完整性。
性能對比:超越前代與競品
Flex.2-preview在性能上顯著優於其前代OpenFlux.1與Flux.1Schnell。AIbase整理了其與主流模型的對比:
圖像質量:在VBench評估中,Flex.2-preview的CLIP得分(0.82)接近Flux.1-dev(0.84),優於Flux.1Schnell(0.79),尤其在手部細節與複雜構圖上表現更佳。
控制精度:結合XLabs ControlNet,Flex.2在Canny與深度控制任務中的一致性超越InstantX的Flux.1-dev-Controlnet-Union-alpha約8%。
推理速度:生成1024x1024圖像(50步)平均耗時20秒(RTX3090,FP8),比Flux.1-dev快約15%,適合快速迭代。
資源佔用:8億參數與FP8量化使其內存需求僅爲Flux.1-dev的60%,更適合消費級硬件。
AIbase認爲,Flex.2-preview的性能平衡使其在開源模型中獨樹一幟,尤其適合需要高控制精度與快速生成的工作流。
社區反響與改進方向
Flex.2-preview發佈後,社區對其靈活的控制能力與開源精神給予高度評價。開發者稱其“將ComfyUI的工作流潛力發揮到極致”,特別是在藝術創作與修補任務中的表現令人印象深刻。 然而,部分用戶反饋指出,模型對複雜提示的語義理解仍有提升空間,建議增強T5編碼器的提示處理能力。社區還期待Flex.2支持視頻生成與更廣泛的ControlNet集成(如姿勢估計)。Ostris團隊迴應稱,下一版本將優化多模態提示處理並引入動態閾值調整,進一步提升生成穩定性。AIbase預測,Flex.2可能與Hailuo Image或混元3D引擎的控制模塊結合,構建跨模態的創作生態。
未來展望:開源AI藝術的持續進化
Flex.2-preview的發佈彰顯了Ostris在開源AI圖像生成領域的創新能力。AIbase認爲,其從Flux.1Schnell到Flex.2的進化路徑展示了社區驅動開發的潛力,尤其在ComfyUI生態中的集成能力爲開發者提供了無限可能。隨着AI-Toolkit的持續迭代,Flex.2有望成爲微調與定製化生成的標準模型。社區已在探討將其與MCP協議結合,構建統一的AI藝術工作流,類似RunComfy的在線平臺。AIbase期待Flex.2在2025年的正式版本發佈,尤其是在多分辨率支持與實時生成上的突破。
項目地址:https://huggingface.co/ostris/Flex.2-preview
