在計算機視覺領域,如何高效地處理圖像一直是研究的熱點話題。近日,斯坦福大學的李飛飛教授和吳佳俊教授的團隊發佈了一項新的研究成果,提出了一種名爲 “FlowMo” 的創新型圖像 tokenizer。這種新方法在不依賴卷積神經網絡(CNN)和生成對抗網絡(GAN)的情況下,顯著提升了圖像重建的質量。

當我們看到一張貓咪的照片時,大腦可以瞬間識別出那是一隻貓。然而,對於計算機而言,處理圖像則顯得複雜得多。計算機將圖像視爲龐大的數字矩陣,通常需要數百萬個數字來表示每一個像素。爲了使得 AI 模型能夠高效學習,研究者們需要將圖像壓縮到更易處理的形式,這個過程稱爲 “tokenization”。傳統的方法往往依賴於複雜的卷積網絡和對抗性學習,但這些方法存在一定的侷限性。

AI繪畫 二次元 辦公 職業女性 (1)動漫

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

FlowMo 的核心創新在於其獨特的兩階段訓練策略。首先,模型在第一階段通過捕捉多種可能的圖像重建結果來學習,這樣可以確保生成的圖像多樣性與質量並存。接着,第二階段則專注於優化重建結果,使之更加接近原始圖像。這一過程不僅提升了重建的準確性,也增強了生成圖像的視覺感知質量。

實驗結果顯示,FlowMo 在多個標準數據集上的表現優於傳統的圖像 tokenizer。例如,在 ImageNet-1K 數據集上,FlowMo 的重建性能在多個比特率設置下都取得了最優成績。尤其是在低比特率的情況下,FlowMo 的重建 FID 值爲0.95,遠超目前最好的模型。

李飛飛團隊的這項研究標誌着圖像處理技術的一次重要突破,不僅爲未來的圖像生成模型提供了新的思路,也爲各種視覺應用場景的優化奠定了基礎。隨着技術的不斷進步,圖像生成和處理將變得愈加高效和智能。