谷歌研究團隊近日推出了一項突破性技術——Alchemist。這項技術使用戶能夠精確地編輯圖片中物品的材質屬性,如顏色、光澤度和透明度,而無需專業的圖像編輯軟件和技能。
Alchemist技術的核心是一種經過微調的"文本到圖像"(Text-to-Image,T2I)生成模型。研究團隊通過創建合成數據集和修改Stable Diffusion1.5模型架構,實現了對材質參數的精細控制。
具體而言,研究人員首先利用計算機圖形學和基於物理的渲染技術生成了大量合成圖像。這些圖像包含各種3D模型,並隨機選擇材質、相機角度和光照條件。隨後,他們對這些圖像的單一屬性進行改變,生成具有不同編輯強度的多個版本。
通過對這些合成數據進行微調,模型學會了如何在給定上下文圖像、指令和編輯強度值的情況下,僅改變指定的材質屬性,同時保持物品形狀和圖像光照不變。
實驗結果顯示,該技術能夠有效地改變物品的外觀,如增強金屬感或調整透明度。在用戶研究中,與基線方法相比,這種方法在照片真實感和用戶偏好方面都獲得了顯著優勢。
這項技術的應用前景廣闊。它可以幫助室內設計師預覽房間重新粉刷的效果,或者協助建築師、藝術家和設計師快速製作新產品的設計草圖。此外,由於編輯效果在視覺上保持一致,該技術還可用於下游的3D任務,如NeRF(神經輻射場)重建。
儘管Alchemist技術在材質編輯方面取得了顯著進展,但研究團隊也指出了一些侷限性。例如,在處理圖像中的隱藏細節時,模型仍有改進空間。
然而,研究人員對這項技術在可控材質編輯方面的潛力充滿信心。隨着進一步的研究和優化,Alchemist有望爲圖像編輯領域帶來革命性的變革,使複雜的材質編輯任務變得更加簡單和直觀。
谷歌的Alchemist技術代表了人工智能在圖像處理領域的又一重大突破。它不僅簡化了複雜的圖像編輯過程,還爲創意產業提供了新的可能性,有望在設計、藝術和虛擬現實等多個領域產生深遠影響。
項目地址:https://prafullsharma.net/alchemist/