騰訊研究團隊發佈了全新的多模態AI模型X-Omni,該模型在圖像生成和理解領域實現了重大突破,特別是在長文本渲染方面表現出色,有效解決了傳統AI模型在圖片文字生成中的準確性問題。
長期以來,AI圖像生成模型在處理文字渲染時面臨着顯著挑戰。傳統的離散自迴歸模型採用逐個生成像素或代 幣的方式構建圖像,這種方法容易產生累積誤差,導致生成的文字出現拼寫錯誤、字符缺失或扭曲變形等問題。許多研究團隊因此轉向擴散模型或混合架構,認爲單純的自迴歸方法難以勝任高質量的文字渲染任務。
X-Omni採用了創新的強化學習框架來優化模型性能。該系統引入了多維度的獎勵機制,包括美學質量評估器HPSv2、綜合獎勵模型Unified Reward、視覺語言理解模型Qwen2.5-VL-32B,以及專門的文字識別評估工具GOT-OCR2.0和PaddleOCR。這些組件協同工作,在模型生成過程中提供實時反饋和指導,顯著提高了輸出質量的穩定性和準確性。
X-Omni的核心優勢在於實現了圖像生成和理解功能的統一建模。傳統方法通常將這兩項任務分別處理,需要不同的模型架構和訓練策略。X-Omni通過使用語義圖像分詞器SigLIP-VQ,將視覺信息轉換爲語言模型可以處理的語義代 幣,使得同一個模型既能生成高質量圖像,又能準確理解圖像內容。
在性能測試方面,X-Omni在多個基準測試中表現優異。在文字渲染任務上,該模型無論處理英文還是中文文本都能保持高準確率,特別是在長文本渲染方面超越了包括GPT-4o在內的多個主流模型。在文本到圖像生成任務中,X-Omni能夠精確遵循複雜指令,生成符合要求的高質量圖像。同時,在圖像理解任務上,該模型在OCRBench等專業測試中的表現也超過了LLaVA-One Vision等專門的視覺理解模型。
值得注意的是,X-Omni在不使用分類器自由引導技術的情況下仍能維持高質量的生成效果。分類器自由引導是一種常用的優化技術,能夠提高模型對指令的遵循度,但會增加計算開銷。X-Omni無需依賴這種外部輔助機制就能實現優秀性能,表明其內部的視覺和語言模塊已經實現了高度的協調統一。
從技術架構角度來看,X-Omni的成功證明了離散自迴歸模型在多模態任務中的潛力。通過引入強化學習的優化機制和統一的語義表示方法,該模型克服了傳統自迴歸方法的侷限性,爲多模態AI的發展提供了新的技術路徑。
X-Omni的發佈標誌着AI在圖像生成和理解領域邁向了新的發展階段。該模型不僅在技術指標上實現了突破,更重要的是驗證了統一多模態建模的可行性,爲構建更加智能和高效的AI系統奠定了基礎。隨着這類技術的不斷完善,用戶將能夠通過自然語言更便捷地創建包含複雜文字內容的視覺作品,AI輔助內容創作的效率和質量都將得到顯著提升。
論文地址:https://arxiv.org/pdf/2507.22058