在人工智能領域,字節跳動商業化技術團隊的最新成果Infinity模型,以其卓越的性能和創新的技術,成爲自迴歸文生圖領域的新王者。這款新開源的模型不僅在圖像生成質量上超越了Stable Diffusion3,還在推理速度上展現了顯著優勢。
Infinity模型的核心創新在於採用了Bitwise Token的自迴歸框架,這一框架通過預測下一級分辨率的+1或-1構成的細粒度“Bitwise Token”,顯著提升了模型對高頻信號的捕捉能力,從而生成細節更加豐富的圖像。此外,Infinity模型將詞表擴展到無窮大,極大地增強了Image tokenizer的表示空間,提高了自迴歸文生圖的性能上限。

在性能對比中,Infinity模型在自迴歸方法中表現突出,遠超HART、LlamaGen、Emu3等方法,並在人類評測中以接近90%的勝率擊敗了HART模型。同時,Infinity也以75%、80%、65%的勝率擊敗了SOTA的擴散模型如PixArt-Sigma、SD-XL、SD3-Meidum等,證明了其在同尺寸模型中的優勢。

Infinity模型的另一大特點是其良好的scaling特性。隨着模型大小的增加和訓練資源的投入,驗證集損失穩步下降,驗證集準確率穩定提升。此外,Infinity還提出了比特自我矯正技術,增強了模型的自我矯正能力,緩解了自迴歸推理時的累計誤差問題。

在推理速度上,Infinity繼承了VAR的速度優勢,2B模型生成1024x1024的圖像僅需0.8秒,比同尺寸的SD3-Medium快3倍,比12B的Flux Dev快14倍。8B模型比同尺寸的SD3.5快7倍,20B模型生成1024x1024的圖像用時3秒,比12B的Flux Dev快近4倍。
目前,Infinity模型的訓練和推理代碼、demo、模型權重已在GitHub倉庫上線,同時提供了網站體驗,方便用戶試用和評估模型效果。
項目頁:https://foundationvision.github.io/infinity.project/
