トップレベルの人工知能は、スクリーン上で動き回る現代のコードを理解するだけでなく、3000年前の甲骨に刻まれた痕跡も読み取らなければなりません。OSCHINAの報道によると、騰訊(テンセント)の混元大モデルやSSVデジタル文化研究所などの機関が、多くの大学と故宮博物院とともに「Chronicles-OCR」を正式にリリースしました。これは中国古文字の「七体之変」の進化の軌跡を完全にカバーした業界初の中国古文字認識評価基準です。

真実のモデルの識別能力を反映するために、このデータセットは分野の専門家によって複数の階層で交叉してラベル付けされ、2800枚の厳密にバランスの取れた高品質な画像を含んでいます。甲骨文、金文、篆書などの古くからの文字体系に対しては、単字レベルでの細かいラベル付けが行われました。一方で、隷書、楷書、行書、草書などの熟練した文字体系については、元の読み順を保持したシーケンスレベルでの転写が採用されています。
主流のビジュアルモデルは全滅
プロジェクトチームはこの基準に基づいて4つの段階的に進む核心的なタスクを設計し、大規模モデルの「視覚的認識」と「意味的推論」を厳密に分離しました。GPT-5、Gemini 3.1 Pro、Claude Opus 4.7を含む28種類の主要なマルチモーダル大言語モデルを評価した結果、驚きの結果が得られました。
現代的なレイアウトの先験知識がない古めかしい文字体系に直面した際、主要な大規模モデルはエンド・ツー・エンドの検出タスクで全滅し、細粒度の識別の最高精度はわずか27.1%にとどまりました。意外にも、実験では大規模モデルの推論(Reasoning)モードを起動すると、感覚の不確実性が拡大され、識別性能がさらに低下することが示されました。
マイクロの筆画認識の欠点を明らかに
評価では、文字体系の分類を行う際に、現在のビジュアル大規模モデルが載体のテクスチャ素材を識別する傾向があり、微細な筆画スタイルを判断することよりも容易であることがわかりました。これは、今日の最上位のAIモデルが、中国の伝統的な古文字に対してまだ本質的に「読解」できていないことを示しています。
漢字は殷墟の甲骨から現在に至るまで、一画一画が文明の連続性を担ってきました。Chronicles-OCRはこの技術的現実を回避せず、明確な最適化方向を提供することで、今後のビジュアル大規模モデルが単なる「文字の識別」から深く「歴史の読解」へと進化するための道を開きます。
