在人工智能領域,每一天都可能發生顛覆性的變革。就在Midjourney剛剛進行大更新的第二天,開源圖像生成領域就迎來了一匹令人矚目的黑馬——FLUX.1。這個突如其來的新玩家不僅在性能上聲稱大幅超越了DALL·E3、Midjourney V6等閉源模型,還將開源的SD3系列全線秒殺,瞬間引爆了AI圈。
讓我們先來認識一下FLUX.1的幕後主腦。它的創始人Robin Rombach可不是什麼無名之輩,而是擴散模型領域的權威專家。他的代表作包括VQGAN、Taming Transformers和Latent Diffusion,曾擔任Stability AI的首席科學家,領導了全球知名的Stable Diffusion系列項目。可以說,Robin Rombach在AI圖像生成領域可謂是"老司機"中的"老司機"。
今年3月,由於Stability AI內部出現動盪,Robin選擇離開。經過四個月的沉澱,他帶着新的開源大模型平臺FLUX.1重磅迴歸。更令人驚訝的是,FLUX.1一亮相就獲得了由著名風投機構Andreessen Horowitz領投的3200萬美元種子輪融資。這無疑爲FLUX.1的未來發展注入了強心劑。
那麼,FLUX.1到底有什麼過人之處?首先,它基於Vision Transformer架構,採用了流程匹配訓練方法,並使用旋轉位置嵌入和並行注意層來提升模型性能和硬件利用效率。這120億參數的模型推出了三個版本:
Pro版:通過API使用,性能最強勁。
Dev版:非商用的指導蒸餾模型,繼承了Pro版的大部分性能。
Schnell版:可以商用的開源模型,性能也相當出色。
根據FLUX.1團隊的測試數據,即便是開源的Schnell版本,在文本語義還原、圖片質量、動作一致性、連貫性和多樣性等方面,也超越了Midjourney v6.0、DALL·E3(HD)和SD3-Ultra等主流模型。特別是在文本嵌入圖片方面,FLUX.1展現出了明顯的優勢。
這裏,AIbase挑選了幾張官方的生成效果展示,大家可以參考一下:
真實攝影圖片
提示詞:一臺機器產生無盡的寶麗來圖像並將其吹向空中。實景國家地理照片
提示詞:舊教室裏黑板的照片。黑板上用粉筆寫着“讓我們一起做一些非常漂亮的東西”,單詞後面有一個紅色的粉筆心。陽光從窗戶照進來
超現實主義圖片
提示詞:由 hajime sorayama 設計的抽象 chrome80年代科幻自動機噴槍靜態物體、單一垂直線、生成藝術、p5js、抖動
提示詞:甜甜圈 耶穌 混合 神話中的生物
動物形象圖片
提示詞:兩隻穿着維多利亞風格服裝的可愛蜘蛛正在舉行一場小型茶會,旁邊是一張小桌子,葉子上放着茶壺,微距照片
提示詞:特寫自由度渲染一個神話中的生物,由詳細的螺旋分形和卷鬚,詳細的遞歸皮膚紋理
動漫圖片
提示詞:精美的動漫作品,一個可愛的動漫貓女,看上去心情很沮喪,手裏拿着一張紙,紙上畫着一個微笑,她快要哭了
AIbase測試了一下之前的貓貓守護神,也完全沒問題,FLUX.1對提示詞的理解比較準確。
當然,FLUX.1的野心顯然不止於此。團隊表示,文生圖只是一個開始,未來他們還計劃推出文生視頻模型,挑戰Sora、Gen-3、Luma等一線產品。
對於開發者和AI愛好者來說,FLUX.1的出現無疑是一個重大利好。Schnell版本已經完全開源,並獲得了Comfyui的支持。如果你有36G以上的顯存,甚至可以運行t5的fp16版本。不過需要注意的是,t5xxl_fp16.safetensors或clip_l.safetensors以及VAE需要單獨下載。
FLUX.1的橫空出世,不僅爲開源AI圖像生成領域帶來了新的希望,也爲整個AI行業注入了新的活力。它的強大性能和開源特性,很可能會加速AI圖像生成技術的普及和創新。對於普通用戶來說,這意味着我們可能很快就能在家用電腦上運行媲美甚至超越Midjourney的AI圖像生成模型。
項目地址:https://github.com/black-forest-labs/flux
試玩地址:https://replicate.com/black-forest-labs/flux-pro
Comfyui工作流:https://comfyanonymous.github.io/ComfyUI_examples/flux/