在當今 AI 技術日益成熟的背景下,香港中文大學的 MMLab 團隊與北航、上交等高校的研究者們攜手推出了一個革命性的工具 —— 結構化圖像生成編輯系統。這一系統的推出,標誌着 AI 在生成圖表和數據可視化方面邁出了重要一步。儘管現有的 AI 生成模型如 FLUX.1和 GPT-Image 在自然圖像的生成上表現優異,但在結構化圖像如圖表和公式方面卻頻頻出錯,數據的準確性與邏輯性常常得不到保證。
團隊分析指出,結構化圖像的生成與編輯存在三大核心需求:精準的文本渲染、複雜的佈局規劃,以及多模態推理能力。這些能力對教育、科研和辦公領域來說至關重要。然而,目前的技術手段未能滿足這些需求,現有數據集主要集中於自然圖像,缺乏嚴格對齊的結構化樣本。

爲了打破這一瓶頸,研究團隊在數據、模型和評估三個層面進行了全面的創新。首先,在數據層面,他們構建了一個包含130萬條代碼對齊的結構化樣本庫,使用可執行繪圖代碼生成高質量的圖像樣本,並確保每個樣本都有詳盡的思維鏈標註。其次,在模型層面,團隊設計了一種輕量級的視覺語言模型(VLM)整合方案,結合了結構化與自然圖像的生成能力。最後,他們還推出了新的評估基準 StructBench 和指標 StructScore,確保生成的圖像在準確性上得到了有效驗證。

通過這一系列創新,研究團隊不僅提升了 AI 對結構化圖像的理解與生成能力,還在多個開源模型的對比中展現出顯著優勢。該系統的發佈,不僅填補了結構化視覺生成領域的空白,也爲多模態 AI 的發展提供了重要的技術支撐。未來,這一工具將廣泛應用於教育、科研和辦公領域,助力 AI 真正成爲有效的生產力工具。
論文地址:https://arxiv.org/pdf/2510.05091
