AI圖像生成迎來新霸主！開源模型FLUX.1橫空出世，Midjourney、DALL·E 3緊張了？

在人工智能領域，每一天都可能發生顛覆性的變革。就在Midjourney剛剛進行大更新的第二天，開源圖像生成領域就迎來了一匹令人矚目的黑馬——FLUX.1。這個突如其來的新玩家不僅在性能上聲稱大幅超越了DALL·E3、Midjourney V6等閉源模型，還將開源的SD3系列全線秒殺，瞬間引爆了AI圈。

讓我們先來認識一下FLUX.1的幕後主腦。它的創始人Robin Rombach可不是什麼無名之輩，而是擴散模型領域的權威專家。他的代表作包括VQGAN、Taming Transformers和Latent Diffusion，曾擔任Stability AI的首席科學家，領導了全球知名的Stable Diffusion系列項目。可以說，Robin Rombach在AI圖像生成領域可謂是"老司機"中的"老司機"。

今年3月，由於Stability AI內部出現動盪，Robin選擇離開。經過四個月的沉澱，他帶着新的開源大模型平臺FLUX.1重磅迴歸。更令人驚訝的是，FLUX.1一亮相就獲得了由著名風投機構Andreessen Horowitz領投的3200萬美元種子輪融資。這無疑爲FLUX.1的未來發展注入了強心劑。

那麼，FLUX.1到底有什麼過人之處?首先，它基於Vision Transformer架構，採用了流程匹配訓練方法，並使用旋轉位置嵌入和並行注意層來提升模型性能和硬件利用效率。這120億參數的模型推出了三個版本:

Pro版:通過API使用，性能最強勁。
Dev版:非商用的指導蒸餾模型，繼承了Pro版的大部分性能。
Schnell版:可以商用的開源模型，性能也相當出色。

根據FLUX.1團隊的測試數據，即便是開源的Schnell版本，在文本語義還原、圖片質量、動作一致性、連貫性和多樣性等方面，也超越了Midjourney v6.0、DALL·E3（HD）和SD3-Ultra等主流模型。特別是在文本嵌入圖片方面，FLUX.1展現出了明顯的優勢。

這裏，AIbase挑選了幾張官方的生成效果展示，大家可以參考一下:

真實攝影圖片

提示詞：一臺機器產生無盡的寶麗來圖像並將其吹向空中。實景國家地理照片

提示詞:舊教室裏黑板的照片。黑板上用粉筆寫着“讓我們一起做一些非常漂亮的東西”，單詞後面有一個紅色的粉筆心。陽光從窗戶照進來

超現實主義圖片

提示詞:由 hajime sorayama 設計的抽象 chrome80年代科幻自動機噴槍靜態物體、單一垂直線、生成藝術、p5js、抖動

提示詞:甜甜圈耶穌混合神話中的生物

動物形象圖片

提示詞:兩隻穿着維多利亞風格服裝的可愛蜘蛛正在舉行一場小型茶會，旁邊是一張小桌子，葉子上放着茶壺，微距照片

提示詞:特寫自由度渲染一個神話中的生物，由詳細的螺旋分形和卷鬚，詳細的遞歸皮膚紋理

動漫圖片

提示詞:精美的動漫作品，一個可愛的動漫貓女，看上去心情很沮喪，手裏拿着一張紙，紙上畫着一個微笑，她快要哭了

QQ截圖20240802091854.jpg

AIbase測試了一下之前的貓貓守護神，也完全沒問題，FLUX.1對提示詞的理解比較準確。

當然，FLUX.1的野心顯然不止於此。團隊表示，文生圖只是一個開始，未來他們還計劃推出文生視頻模型，挑戰Sora、Gen-3、Luma等一線產品。

對於開發者和AI愛好者來說，FLUX.1的出現無疑是一個重大利好。Schnell版本已經完全開源，並獲得了Comfyui的支持。如果你有36G以上的顯存，甚至可以運行t5的fp16版本。不過需要注意的是，t5xxl_fp16.safetensors或clip_l.safetensors以及VAE需要單獨下載。

FLUX.1的橫空出世，不僅爲開源AI圖像生成領域帶來了新的希望，也爲整個AI行業注入了新的活力。它的強大性能和開源特性，很可能會加速AI圖像生成技術的普及和創新。對於普通用戶來說，這意味着我們可能很快就能在家用電腦上運行媲美甚至超越Midjourney的AI圖像生成模型。

項目地址:https://github.com/black-forest-labs/flux

試玩地址:https://replicate.com/black-forest-labs/flux-pro

Comfyui工作流:https://comfyanonymous.github.io/ComfyUI_examples/flux/

AI圖像生成迎來新霸主！開源模型FLUX.1橫空出世，Midjourney、DALL·E 3緊張了？

相關推薦

谷歌搜索引入“無結果生圖”:AI 概覽變身創意畫布，恐分流網站流量

Meta超級智能實驗室首發圖像模型Muse Image：對話即可生成，Instagram和WhatsApp免費用

Meta超級智能實驗室首發圖像生成模型：Muse Image免費登陸Instagram和WhatsApp

體驗再升級！谷歌Gemini個性化AI繪圖功能對美國用戶免費開放

從生成圖像到醫療影像，Midjourney 推出全身超聲掃描儀