谷歌推Alchemist技術實現圖片材質精準編輯

谷歌研究團隊近日推出了一項突破性技術——Alchemist。這項技術使用戶能夠精確地編輯圖片中物品的材質屬性，如顏色、光澤度和透明度，而無需專業的圖像編輯軟件和技能。

Alchemist技術的核心是一種經過微調的"文本到圖像"（Text-to-Image，T2I）生成模型。研究團隊通過創建合成數據集和修改Stable Diffusion1.5模型架構，實現了對材質參數的精細控制。

QQ截圖20240729101021.jpg

具體而言，研究人員首先利用計算機圖形學和基於物理的渲染技術生成了大量合成圖像。這些圖像包含各種3D模型，並隨機選擇材質、相機角度和光照條件。隨後，他們對這些圖像的單一屬性進行改變，生成具有不同編輯強度的多個版本。

通過對這些合成數據進行微調，模型學會了如何在給定上下文圖像、指令和編輯強度值的情況下，僅改變指定的材質屬性，同時保持物品形狀和圖像光照不變。

實驗結果顯示，該技術能夠有效地改變物品的外觀，如增強金屬感或調整透明度。在用戶研究中，與基線方法相比，這種方法在照片真實感和用戶偏好方面都獲得了顯著優勢。

QQ截圖20240729101033.jpg

這項技術的應用前景廣闊。它可以幫助室內設計師預覽房間重新粉刷的效果，或者協助建築師、藝術家和設計師快速製作新產品的設計草圖。此外，由於編輯效果在視覺上保持一致，該技術還可用於下游的3D任務，如NeRF（神經輻射場）重建。

儘管Alchemist技術在材質編輯方面取得了顯著進展，但研究團隊也指出了一些侷限性。例如，在處理圖像中的隱藏細節時，模型仍有改進空間。

然而，研究人員對這項技術在可控材質編輯方面的潛力充滿信心。隨着進一步的研究和優化，Alchemist有望爲圖像編輯領域帶來革命性的變革，使複雜的材質編輯任務變得更加簡單和直觀。

谷歌的Alchemist技術代表了人工智能在圖像處理領域的又一重大突破。它不僅簡化了複雜的圖像編輯過程，還爲創意產業提供了新的可能性，有望在設計、藝術和虛擬現實等多個領域產生深遠影響。

項目地址：https://prafullsharma.net/alchemist/

vLLM-Omni開源:把擴散模型、ViT、LLM塞進一條流水線，多模態推理一次跑完

vLLM團隊推出首個“全模態”推理框架vLLM-Omni，將文本、圖像、音頻、視頻的統一生成從概念驗證變爲可落地的代碼。該框架採用解耦流水線架構，包括模態編碼器（如ViT、Whisper）、LLM核心（沿用vLLM自迴歸引擎）和模態生成器（如DiT、Stable Diffusion），支持多模態輸入與輸出。開發者可通過GitHub和ReadTheDocs獲取，並立即pip安裝使用。

EA與Stability AI合作:將AI融入遊戲開發，加速內容創作

EA與Stability AI達成合作，將Stable Diffusion等AI技術深度整合到遊戲開發中。雙方計劃共同開發AI模型與工具，重構內容生產方式，旨在加速迭代、拓展創意邊界。EA強調AI定位爲提升效率的輔助工具，支持快速迭代與流程優化，而非取代人類創意。

谷歌推Alchemist技術實現圖片材質精準編輯

相關推薦

AI繪畫提示詞新利器：PromptFill上線！讓複雜Prompt像填空題一樣簡單

vLLM-Omni開源:把擴散模型、ViT、LLM塞進一條流水線，多模態推理一次跑完

Comfy Cloud公測炸場！瀏覽器秒開Stable Diffusion，AI創作真正實現“零門檻”

倫敦高院裁定 AI 圖像生成器 Stable Diffusion 不構成 “侵權複製”

EA與Stability AI合作:將AI融入遊戲開發，加速內容創作

谷歌推Alchemist技術 實現圖片材質精準編輯

相關推薦

AI繪畫提示詞新利器：PromptFill上線！讓複雜Prompt像填空題一樣簡單

vLLM-Omni開源:把擴散模型、ViT、LLM塞進一條流水線，多模態推理一次跑完

Comfy Cloud公測炸場！瀏覽器秒開Stable Diffusion，AI創作真正實現“零門檻”

​倫敦高院裁定 AI 圖像生成器 Stable Diffusion 不構成 “侵權複製”

EA與Stability AI合作:將AI融入遊戲開發，加速內容創作

谷歌推Alchemist技術實現圖片材質精準編輯

倫敦高院裁定 AI 圖像生成器 Stable Diffusion 不構成 “侵權複製”