在人工智能領域,AI畫家的能力一直在不斷突破和進步。然而,即使是最先進的AI圖像生成模型,也可能在某些看似簡單的任務上遇到難題。最近,上海交通大學博士研究生趙峻圖及其團隊在研究中發現,AI在生成“茶杯中的冰可樂”這一場景時,表現出了意料之外的困難。
這一現象引發了學術界的關注,被稱爲文本圖像不對齊問題(text-image misalignment)。在2023年10月,當AI圖像生成模型剛剛興起時,趙峻圖及其團隊進行了嘗試,發現AI畫家在構建這一場景時,往往會畫出一個裝滿冰可樂的透明玻璃杯,而非茶杯。即使在2024年7月使用最先進的模型進行嘗試,結果仍然不盡人意。
爲了深入探索這一問題,上海交通大學王德泉教授的課題組在即將發表的論文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中,將這一問題歸類爲包含隱藏變量的不對齊問題(Latent Concept Misalignment,簡稱 LC-Mis)。他們設計了一個基於大語言模型(LLMs)的系統,利用LLMs蘊含的人類思維來幫助快速收集存在類似問題的概念對。
研究團隊提出了一種名爲Mixture of Concept Experts (MoCE) 的方法,將順序作畫的規律融入到 diffusion models 的多步採樣過程中,成功地將消失的茶杯找了回來。
它將整個採樣過程分爲兩個階段:第一階段只提供容易被忽略的概念,第二階段再使用完整的文本提示。通過這種方法,MoCE在生成圖像時能夠更精確地控制文本和圖像之間的對齊。
MoCE方法顯著降低了第5級 LC-Mis 概念對的佔比,甚至在一定程度上超越了需要大量數據標註成本的 Dall・E3(2023年10月版本)。
此外,研究團隊還發現,現有的自動化評價指標在面對這類新問題時存在明顯缺陷。例如,一些評價指標對茶杯中的冰可樂給予了較低的評分,而對透明玻璃杯中的冰可樂卻給予了較高的評分。這表明,即使是評價AI表現的工具本身,也可能存在偏見和侷限性。
研究者們計劃在未來的工作中探索更復雜的LC-Mis場景,並開發可學習的搜索算法來減少迭代次數。他們還計劃擴大數據集中使用的模型類型、模型版本和採樣器類型,並持續迭代數據集收集算法,以增強和擴大數據集。
這項研究不僅爲理解AI在圖像生成中的侷限性提供了新的視角,也爲改進AI的圖像生成能力提供了新的思路和方法。隨着技術的不斷進步,我們期待AI在理解和再現人類創造力方面取得更大的突破。
項目地址:https://lcmis.github.io/
論文:https://arxiv.org/pdf/2408.00230