阿里巴巴通義實驗室最新研究表明,現有的文生圖 Diffusion Transformer 模型其實已經具備生成多張具有特定關係圖像的能力,只需稍加“點撥”就能“融會貫通”,生成高質量的多圖集。
傳統的 Diffusion 模型更像是一個“死記硬背”的學生,需要用海量數據訓練,才能生成高質量的圖像。
而有了 IC-LoRA 加持,它就變成了“觸類旁通”的學霸,只需要少量樣本就能學會新技能。
這背後的原理說起來也不復雜,研究人員發現,現有的文生圖 Diffusion 模型其實已經具備一定的“上下文學習”能力,只是需要一些技巧來激活它。
他們做了幾個實驗,直接用現成的文生圖模型來生成多張圖像,結果發現,模型確實能理解圖片之間的關係,並生成具有一致性的圖像集,雖然還有些小瑕疵,但已經很可觀了。
於是,他們就設計了一套簡單有效的流程,來喚醒 Diffusion 模型的“上下文學習”能力:
把多張圖片拼接成一張大圖,而不是像以前那樣把 token 拼接起來,這樣做相當於在 Diffusion 模型裏直接處理圖像,而不是抽象的 token。
把每張圖片的文字描述合併成一個長長的 prompt,這樣模型就能同時處理多張圖片的信息,並理解它們之間的關係。
例如:
提示:“在這個冒險的三張圖像序列中,[IMAGE1] Ethan,一位勇敢的考古學家,外表粗獷,在一個陽光明媚的沙漠挖掘現場發現了一張古老的地圖,當他刷去沙子時,他的興奮顯而易見,[IMAGE2] 在一個充滿活力的外國城市過渡到一個熙熙攘攘的市場,Ethan 在那裏與當地商人談判併爲他的任務收集必需品, [圖片3]最後,Ethan 跋涉穿過濃密、薄霧籠罩的叢林,高聳的樹木和異國情調的野生動物強調了他旅程中的挑戰和神祕之處。
提示:“在一個迷人的韌性故事中,[IMAGE1] 我們看到 Lena,一個堅定的女孩,在貧瘠的田野上播種,她的臉上充滿了決心,[IMAGE2] 過渡到她培育植物,每天給它們澆水,她的努力慢慢見效,[IMAGE3] 最終在一個充滿生機的鬱鬱蔥蔥的花園中結束,Lena 自豪地站在她的創造物中,象徵着成長和毅力。
用少量高質量的圖片集對模型進行微調,而不是像以前那樣用幾十萬張圖片進行大規模訓練。這樣做既能節省算力,又能保留模型原有的知識和“上下文學習”能力。
最終的 IC-LoRA 模型非常簡單,不需要對原有的文生圖模型進行任何修改,只需要根據具體的任務調整少量的訓練數據就行了。
比如,你想讓 Stable Diffusion 學會生成漫畫風格的圖像,只需要用幾張漫畫圖片訓練一下 IC-LoRA 模型,它就能生成各種你想要的漫畫了,簡直是“一點就通”。
提示:“這對圖像呈現了從寫實肖像到俏皮插圖的轉變,捕捉了細節和藝術天賦;[IMAGE1] 照片中,一名女子站在熙熙攘攘的市場中,戴着寬邊帽,身穿飄逸的波西米亞風裝,手裏拿着皮質斜挎包;[IMAGE2] 插畫版誇大了她的配飾和特徵,波西米亞風格的連衣裙以充滿活力的圖案和大膽的色彩描繪,而背景則被簡化爲抽象的市場攤位,給場景帶來生動活潑的感覺。
爲了讓 IC-LoRA 更強大,研究人員還加入了圖像條件生成功能,簡單來說就是根據已有的圖片生成新的圖片,比如根據一張人物照片生成不同表情、姿勢的圖片,或者根據一張風景照生成不同天氣、光照的圖片。
例如:
提示:“這組四張圖片捕捉了一位老婦人照料她的花園的寧靜時刻。[圖片1]她跪在一牀盛開的花壇旁,雙手輕輕修剪一叢玫瑰花,柔和的晨光照亮了她銀色的頭髮;[圖片2] 她站在噴壺前,在培育植物時臉色平靜祥和;[IMAGE3] 特寫鏡頭顯示,當她看着手中含苞待放的花朵時,她露出滿足的笑容,自豪和喜悅之情顯而易見;[IMAGE4] 她坐在一張小長凳上,在她的花園裏喝茶,周圍環繞着她辛勤工作的鮮豔色彩。
提示:“這組兩張圖片說明了沙塵暴對體育場景的變革性影響;[圖1] 在鬱鬱蔥蔥的綠色場地上,一支美式橄欖球隊的焦點是一名球員拿着足球,在明亮的陽光下拍攝,[圖2] 切換到同一名球員,他被戲劇性的沙塵和閃電效果所吞沒,灰塵在他周圍盤旋,在昏暗、黑暗的場地上營造出猛烈的沙塵暴效果。
測試結果表明,IC-LoRA 在各種圖像生成任務上都取得了高質量的結果,無論是生成人物肖像、字體設計、家居裝飾,還是生成電影故事板、視覺特效,它都能輕鬆應對,簡直是“十八般武藝樣樣精通”。
IC-LoRA 的出現,對於 AI 圖像生成領域來說,絕對是一個里程碑式的進步。它大大降低了 AI 模型的訓練成本,讓更多人能夠參與到 AI 創作中來。
未來,隨着 IC-LoRA 的進一步發展,我們有理由相信,AI 將會成爲每個人都觸手可及的創作工具,讓每個人都能成爲藝術家。
項目地址:https://ali-vilab.github.io/In-Context-LoRA-Page/