迪士尼的研究團隊最近推出了一種全新的圖像壓縮方法,利用開源的 Stable Diffusion V1.2模型,這種方法可以在比競爭對手更低的比特率下生成更真實的圖像。這種新方法被稱爲 “編解碼器”,儘管它比傳統的 JPEG 和 AV1編解碼器複雜得多,但其性能卻令人驚歎。

image.png

該研究表明,新方法在圖像細節的恢復上表現得更爲出色,同時所需的訓練成本也大大降低。研究人員發現,量化誤差(圖像壓縮中的核心過程)與噪聲(擴散模型中的核心過程)非常相似,因此可以將傳統量化圖像視爲原始圖像的噪聲版本。在這一過程中,利用擴散模型的去噪過程來重建目標比特率下的圖像。

image.png

在一系列測試中,迪士尼的新方法在準確性和細節恢復方面都超越了之前的圖像壓縮技術。研究者們表示,他們的方法不需要對擴散模型進行額外的微調,能夠有效地使用現有的基礎模型。這種新型編解碼器的優越性在於其在真實感的重建上表現優異,儘管在某些情況下,它可能會出現幻覺現象,也就是生成的圖像中可能會出現並不存在於原始圖像中的細節。

儘管這種壓縮方法在藝術作品和普通照片的呈現上有一定的影響,但在一些關乎細節的應用場景中,比如法庭證據、面部識別數據和光學字符識別(OCR)掃描等,幻覺現象的潛在風險則顯得更爲重要。目前,儘管這一技術仍處於初級階段,但隨着 AI 增強圖像壓縮技術的發展,這一領域的挑戰將會逐漸顯現。

爲了使圖像存儲更加高效,迪士尼團隊經過長期探索,終於推出了這一新技術。他們在 Vimeo-90k 數據集上進行訓練,並在多個數據集上進行了測試,結果顯示該方法在多項圖像質量指標上均優於以往的方法。最終,研究者們通過用戶研究也證實了他們的方法在實際應用中的優越性。

論文:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

劃重點:

1. 🖼️ 迪士尼的新 AI 圖像壓縮技術能夠在更低比特率下生成更真實的圖像。

2. ⚙️ 該方法在細節恢復和訓練成本上表現優異,且無需額外微調。

3. ⚠️ 儘管效果顯著,但可能會生成與原圖不符的細節,存在 “幻覺” 風險。