2025年4月27日,AIbase報道:由Stepfun AI團隊推出的Step1X-Edit圖像編輯模型於近日正式開源,引發業界廣泛關注。這一通用圖像編輯框架以其卓越性能和實用的開源特性,展現了媲美GPT-4o和Gemini 2 Flash等閉源模型的潛力。
以下是對Step1X-Edit的全面解析,涵蓋其技術亮點、應用場景及未來影響。

創新技術架構
Step1X-Edit採用多模態大語言模型(MLLM)與擴散變換器(DiT)的結合,通過處理用戶提供的參考圖像和編輯指令,生成高質量的目標圖像。其核心創新在於將多模態語言模型的語義理解能力與擴散模型的圖像生成能力相融合。模型通過提取潛在嵌入並與擴散圖像解碼器集成,能夠精準響應多樣化的編輯需求。
訓練過程中,團隊構建了包含超過100萬高質量三元組(參考圖像、指令、目標圖像)的數據管道,覆蓋11種編輯類型,確保模型在複雜場景下的魯棒性。
GEdit-Bench:真實場景的評測標杆
爲更真實地評估圖像編輯模型的性能,Stepfun AI團隊發佈了全新基準GEdit-Bench。該基準基於現實世界的用戶指令設計,涵蓋廣泛的編輯場景,從簡單的色彩調整到複雜的對象添加或場景重構。
實驗結果顯示,Step1X-Edit在GEdit-Bench上的表現大幅超越現有開源基線模型,接近領先的閉源模型水平。這一基準的開源發佈爲圖像編輯領域的研究提供了更貼近實際需求的評測工具,標誌着行業評估標準的進步。
開源資源與高性能表現
Step1X-Edit的代碼、模型權重及GEdit-Bench評測數據已於2025年4月25日通過Hugging Face和ModelScope平臺開放。模型支持在單塊H800 GPU上運行,推薦使用80GB顯存以獲得最佳生成質量。
對於512x512分辨率的圖像,模型可在42GB顯存下於5秒內完成編輯;1024x1024分辨率則需50GB顯存,耗時約22秒。官方提供的推理代碼和安裝腳本進一步降低了使用門檻,支持Python 3.10及以上版本,兼容主流深度學習框架如PyTorch 2.3.1及2.5.1。
廣泛的應用前景
Step1X-Edit的靈活性和高精度使其適用於多種場景。無論是專業設計師優化創意作品,還是普通用戶進行照片美化,該模型都能通過簡單指令實現複雜編輯。
例如,用戶可以通過文本描述實現背景替換、對象移除或風格遷移,生成專業品質的圖像。此外,模型已在fal.ai等平臺上線,用戶可通過在線演示體驗其功能。這一開源模型的發佈爲內容創作者、開發者和研究人員提供了強大的工具,助力圖像編輯的普及和創新。
對行業的深遠影響
Step1X-Edit的開源不僅推動了圖像編輯技術的發展,也爲開源社區注入了新的活力。相較於依賴專有數據的閉源模型,Step1X-Edit通過透明的訓練流程和高可復現性,爲學術界和開發者提供了研究和優化的基礎。
業界人士認爲,該模型的發佈可能促使更多企業探索開源AI的商業化路徑,同時激勵閉源模型提供商進一步提升性能。
未來優化與期待
儘管Step1X-Edit已展現出強大實力,但其高顯存需求可能限制部分用戶的訪問。未來,團隊計劃優化模型效率,降低硬件門檻,並擴展支持更多編輯類型和分辨率。此外,GEdit-Bench的持續更新將進一步豐富評測場景,助力行業形成統一的性能標準。AIbase將持續關注Step1X-Edit的進展,爲您帶來開源AI領域的最新動態。
體驗地址:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit
