頂尖的人工智能不僅要能看懂屏幕上跳動的現代代碼,也需要讀懂三千年前龜甲上的刻痕。據OSCHINA報道,騰訊混元大模型、SSV數字文化實驗室等機構聯合多所高校與故宮博物院,正式推出了“Chronicles-OCR”。這是業界首個完整覆蓋漢字“七體之變”演化軌跡的中國古文字感知評測基準。

爲了真實反映大模型的識別能力,該數據集由領域專家進行了多層級交叉標註,包含 2800 張嚴格平衡的高質量圖像。針對甲骨文、金文、篆書等古早字體,團隊採用了單字級的精細標註;而對於隸、楷、行、草等成熟字體,則採用了保留原始閱讀順序的序列級轉寫。
主流視覺模型全軍覆沒
項目團隊基於該基準設計了四個層層遞進的核心任務,嚴格將大模型的“視覺感知”與“語義推理”解耦開來。在對包括GPT-5、Gemini 3.1 Pro、Claude Opus 4. 7 在內的 28 個主流多模態大語言模型進行評測後,結果卻令人大跌眼鏡。
在面對缺乏現代版式先驗的古早字體時,主流大模型在端到端檢測任務中全軍覆沒,細粒度識別的最高準確率也僅有27.1%。令人意外的是,實驗表明此時開啓大模型的推理(Reasoning)模式,反而會放大感知的不確定性,導致識別表現進一步下降。
揭示微觀筆畫識別短板
評測還發現,在進行字體分類時,目前的視覺大模型更容易去識別載體的紋理材質,而不是去判別微觀的筆畫風格。這意味着今天最頂尖的AI模型,在面對中國傳統古文字時,依然還遠遠沒有做到真正的“讀懂”。
漢字從殷墟甲骨一路演化至今,每一筆一畫都承載着文明的連續性。Chronicles-OCR的開源不迴避這一技術現實,它通過清晰可見的差距,爲未來視覺大模型從簡單的“識字”走向深度“讀史”提供了明確的優化方向。
