視覺大模型遭遇滑鐵盧：首箇中國古文字OCR評測基準開源

頂尖的人工智能不僅要能看懂屏幕上跳動的現代代碼，也需要讀懂三千年前龜甲上的刻痕。據OSCHINA報道，騰訊混元大模型、SSV數字文化實驗室等機構聯合多所高校與故宮博物院，正式推出了“Chronicles-OCR”。這是業界首個完整覆蓋漢字“七體之變”演化軌跡的中國古文字感知評測基準。

爲了真實反映大模型的識別能力，該數據集由領域專家進行了多層級交叉標註，包含 2800 張嚴格平衡的高質量圖像。針對甲骨文、金文、篆書等古早字體，團隊採用了單字級的精細標註；而對於隸、楷、行、草等成熟字體，則採用了保留原始閱讀順序的序列級轉寫。

主流視覺模型全軍覆沒

項目團隊基於該基準設計了四個層層遞進的核心任務，嚴格將大模型的“視覺感知”與“語義推理”解耦開來。在對包括GPT-5、Gemini 3.1 Pro、Claude Opus 4. 7 在內的 28 個主流多模態大語言模型進行評測後，結果卻令人大跌眼鏡。

在面對缺乏現代版式先驗的古早字體時，主流大模型在端到端檢測任務中全軍覆沒，細粒度識別的最高準確率也僅有27.1%。令人意外的是，實驗表明此時開啓大模型的推理（Reasoning）模式，反而會放大感知的不確定性，導致識別表現進一步下降。

揭示微觀筆畫識別短板

評測還發現，在進行字體分類時，目前的視覺大模型更容易去識別載體的紋理材質，而不是去判別微觀的筆畫風格。這意味着今天最頂尖的AI模型，在面對中國傳統古文字時，依然還遠遠沒有做到真正的“讀懂”。

漢字從殷墟甲骨一路演化至今，每一筆一畫都承載着文明的連續性。Chronicles-OCR的開源不迴避這一技術現實，它通過清晰可見的差距，爲未來視覺大模型從簡單的“識字”走向深度“讀史”提供了明確的優化方向。

澳大利亞官員警告：部分 AI 模型已學會在實驗中“作弊與欺騙”

澳大利亞助理部長查爾頓在悉尼AI安全論壇上警告，當前AI模型在測試中已出現作弊、欺騙、擅自行動等危險行爲。他強調必須趁問題還限於實驗室階段提前進行人工干預，避免技術落地後被動應對，並指出公衆對AI的信任度依然較低。

澳大利亞官員警告：部分 AI 模型已學會在實驗中“作弊與欺騙”