5月18日,騰訊混元、SSV數字文化實驗室及SSV技術架構部聯合安陽師範學院甲骨文信息處理重點實驗室、中科院信工所、南開大學,正式發佈了業界首個覆蓋“七體之變”完整演化軌跡的中國古文字識別評測基準Chronicles-OCR。該基準的推出,旨在精準衡量多模態大語言模型(VLLM)在面對橫跨三千年的漢字視覺分佈漂移時的感知能力,推動數字人文領域的底層技術突破。

該數據集由領域專家多層級交叉標註,包含2,800張嚴格平衡的高質量圖像。針對古早字體(甲骨、金文、篆書)與成熟字體(隸、楷、行、草)的特性,項目組設計了階段自適應標註範式,並設立跨時代字符檢測、細粒度古字識別、古文轉寫和字體分類四大核心任務,實現了視覺感知與語義推理的解耦評測。

在對GPT-5、Gemini3.1Pro、Claude Opus4.7等28個主流大模型的評測中,基準揭示了當前行業多模態能力的短板:在古早字體上,端到端檢測任務由於缺乏現代版式先驗而導致主流模型全軍覆沒;在細粒度識別中,最高準確率僅爲27.1%;而在字體分類任務中,模型傾向於識別載體紋理而非微觀筆畫。值得注意的是,實驗表明開啓推理(Reasoning)模式反而會放大感知不確定性,導致表現下降。

此次 Chronicles-OCR 的開源發佈,不僅量化了頂尖商用模型與古文字實際研究需求之間的技術鴻溝,也爲學術界和工業界明確了微觀感知優化的技術路徑。讓大模型從“識字”走向“讀史”,將成爲多模態大模型攻克長尾垂直場景、傳承文化遺產的關鍵一步。

QQ20260519-092228.jpg