近日,字節跳動聯合香港大學和華中科技大學共同推出了全新的視覺分詞器 UniTok。這款工具不僅能在視覺生成和理解任務中發揮作用,還在技術上進行了重要創新,解決了傳統分詞器在細節捕捉與語義理解之間的矛盾。

UniTok 採用了多碼本量化技術,能夠將圖像特徵分割成多個小塊,並用獨立的子碼本進行量化。這種方法極大地提升了視覺 token 的表示能力,使得處理圖像時能夠更加精細。比如,UniTok 在 ImageNet 數據集上的零樣本分類準確率達到了78.6%,而圖像重建質量也僅爲0.38,遠超現有的分詞器。

image.png

UniTok 的核心功能包括統一視覺表示和高質量圖像重建。它能將圖像編碼爲離散的視覺 token,這些 token 不僅可以用於圖像生成(例如根據文本生成圖像),還可以用於視覺理解(例如回答與圖像相關的問題)。此外,UniTok 結合了對比學習和重建損失,確保生成的視覺 token 與文本描述之間的對齊,從而提升視覺理解的能力。

在技術原理上,UniTok 的多碼本量化使得視覺 token 的詞彙量可以指數級增長。而其使用的多頭注意力模塊則更好地保留了原始 token 中的語義信息,使得分解後的特徵表達能力得以提升。整個訓練過程遵循統一的目標,確保圖像細節的準確重建,同時優化生成和理解任務。

UniTok 不僅在視覺領域表現出色,還爲多模態大語言模型(MLLM)的發展提供了強有力的支持。它將生成的視覺 token 映射到多模態語言模型的 token 空間,推動了視覺與語言的統一處理。這種技術進步不僅提升了圖像生成的效率,還爲教育、醫療影像分析等多個領域帶來了新的應用前景。

未來,UniTok 有望在多個場景中得到廣泛應用,比如作爲多模態模型的視覺輸入模塊,提升圖文信息處理能力;根據文本生成細節豐富的圖像,助力創意設計;或是在電商平臺中進行跨模態檢索與推薦,從而提高用戶體驗。

項目地址:https://github.com/FoundationVision/UniTok