如果讓AI用自己生成的圖像進行再訓練,結果會怎樣?最近,斯坦福大學和加州大學伯克利分校的研究人員們就做了這樣一個實驗,結果讓人大跌眼鏡。

研究人員們發現,當AI圖像生成模型被重新訓練,使用它們自己生成的圖像時,這些模型會產生高度扭曲的圖像。更糟糕的是,這種扭曲不僅限於用於再訓練的文本提示,一旦模型被“污染”,即使之後只用真實圖像進行再訓練,模型也很難完全恢復。

實驗的起點是一個名爲Stable Diffusion(SD)的開源模型。研究人員們首先從FFHQ人臉數據集中選取了70,000張高質量的人臉圖像,並自動分類。然後,他們使用這些真實圖像作爲輸入,通過Stable Diffusion模型生成了900張與特定人羣特徵一致的圖像。

接下來,研究人員們將這些生成的圖像用於模型的迭代再訓練。他們發現,不管再訓練數據集中自生成圖像的比例如何,模型最終都會崩潰,生成的圖像質量急劇下降。即使是在再訓練數據中只包含3%自生成圖像的情況下,模型崩潰的現象依然存在。

image.png

實驗結果顯示,基線版本的Stable Diffusion模型生成的圖像與文本提示一致,且視覺質量高。但當模型經過迭代再訓練後,生成的圖像開始出現語義上的不一致和視覺扭曲。研究人員們還發現,模型崩潰不僅影響圖像質量,還導致生成的圖像缺乏多樣性。

爲了驗證這一點,研究人員們還進行了控制實驗,嘗試通過調整生成圖像的顏色直方圖和移除低質量圖像來減輕模型崩潰的影響。但結果表明,這些措施並不能有效阻止模型崩潰。

研究人員們還探討了模型在被“污染”後是否有可能通過再訓練恢復。他們發現,儘管在某些情況下,經過多次迭代再訓練後,生成的圖像質量有所恢復,但模型崩潰的跡象依然存在。這表明,一旦模型被“污染”,其影響可能是長期的,甚至是不可逆的。

這項研究揭示了一個重要的問題:當前流行的基於擴散的文本到圖像生成AI系統對數據“污染”非常敏感。這種“污染”可能無意中發生,比如通過不加選擇地從在線資源抓取圖像。也可能是有針對性的攻擊,比如故意在網站上放置被“污染”的數據。

面對這些挑戰,研究人員們提出了一些可能的解決方案,比如使用圖像真實性檢測器來排除AI生成的圖像,或者在生成的圖像中加入水印。這些方法雖然不完美,但結合起來可能會顯著降低數據“污染”的風險。

這項研究提醒我們,AI技術的發展並非沒有風險。我們需要更加謹慎地處理AI生成的內容,確保它們不會對我們的模型和數據集造成長期的負面影響。未來的研究需要進一步探索如何使AI系統對這種類型的數據“污染”更具韌性,或者開發出能夠加速模型“治癒”的技術。

論文地址:https://arxiv.org/pdf/2311.12202