5月18日、騰訊混元(Hunyuan)、SSVデジタル文化ラボラトリーおよびSSVテクノロジーアーキテクチャ部門は、安阳師範大学の甲骨文情報処理重点実験室、中国科学院情報工学研究所、南開大学と共同で、業界初の「七体変化」の完全な進化経路をカバーする中国古文字認識評価基準「Chronicles-OCR」を正式に発表しました。この基準の導入は、三千年前から現代に至る漢字の視覚的分布の変化に直面したマルチモーダル大言語モデル(VLLM)の知覚能力を正確に測定し、デジタル人文科学分野における基本技術の突破を推進することを目的としています。

このデータセットは、専門家による多段階の交差ラベリングによって構成されており、厳密にバランスが取れた高品質な画像が2,800枚含まれています。古くからの字体(甲骨文、金文、篆書)と成熟した字体(隷書、楷書、行書、草書)の特性に応じて、プロジェクトチームは段階的な適応型ラベリング方式を開発し、時代を超えた文字検出、細粒度の古字認識、古文転写、字体分類の4つの核心的なタスクを設け、視覚的知覚と意味的推論の分離評価を実現しました。

28の主要な大規模モデルであるGPT-5、Gemini3.1Pro、Claude Opus4.7などの評価において、この基準は現在の業界におけるマルチモーダル能力の欠点を明らかにしました。古くからの字体では、エンドツーエンドの検出タスクにおいて現代のレイアウトに関する事前知識が不足しているため、主流モデルはすべて失敗しました。細粒度の認識では最高でも27.1%の精度にとどまりました。また、字体分類タスクでは、モデルが載体のテクスチャを識別しようとする傾向があり、微細な筆画を識別することはできませんでした。注目すべきは、実験結果により、推論(Reasoning)モードを有効にすると感知の不確実性が拡大し、結果が悪化することが示されたことです。

今回のChronicles-OCRのオープンソース公開は、トップクラスの商用モデルと古文字の実際の研究ニーズとの間の技術的なギャップを数値化し、学術界と産業界に対してマイクロレベルの知覚最適化の技術的道筋を明確にしました。大規模言語モデルが「文字を読む」ことから「歴史を読む」ことへと進化し、マルチモーダル大規模モデルが長尾の垂直領域を克服し、文化的遺産を継承する上で重要な一歩となることを目指しています。

QQ20260519-092228.jpg