5月18日,騰訊混元、SSV數字文化實驗室及SSV技術架構部聯合安陽師範學院甲骨文信息處理重點實驗室、中科院信工所、南開大學,正式發佈了業界首個覆蓋“七體之變”完整演化軌跡的中國古文字識別評測基準
該數據集由領域專家多層級交叉標註,包含2,800張嚴格平衡的高質量圖像。針對古早字體(甲骨、金文、篆書)與成熟字體(隸、楷、行、草)的特性,項目組設計了階段自適應標註範式,並設立跨時代字符檢測、細粒度古字識別、古文轉寫和字體分類四大核心任務,實現了視覺感知與語義推理的解耦評測。
在對GPT-5、Gemini3.1Pro、Claude Opus4.7等28個主流大模型的評測中,基準揭示了當前行業多模態能力的短板:在古早字體上,端到端檢測任務由於缺乏現代版式先驗而導致主流模型全軍覆沒;在細粒度識別中,最高準確率僅爲27.1%;而在字體分類任務中,模型傾向於識別載體紋理而非微觀筆畫。值得注意的是,實驗表明開啓推理(Reasoning)模式反而會放大感知不確定性,導致表現下降。
此次 Chronicles-OCR 的開源發佈,不僅量化了頂尖商用模型與古文字實際研究需求之間的技術鴻溝,也爲學術界和工業界明確了微觀感知優化的技術路徑。讓大模型從“識字”走向“讀史”,將成爲多模態大模型攻克長尾垂直場景、傳承文化遺產的關鍵一步。

