歴史学者がGemini3Proに対して厳格なテストを行った: 50の英語の学術的手書きサンプルで、1万語以上に及ぶもので、さまざまな複雑な書体や画像条件を含む。その結果、Gemini3は文字誤り率(CER)と単語誤り率(WER)において驚異的な進歩を遂げ、CERは0.56%、WERは1.22%であり、専門の人間の変換レベルに近づいたまたは達した。

111.jpg

「読めない」から「推論できる」へ、AIが認知のハードルを越える

従来の大規模言語モデルは「予測型」の本質を持ち、非標準的な綴り、長s(ſ)、曖昧な句読点、歴史的単位など、高度に曖昧な状況では性能が劣る。しかし、Gemini3は訓練されていない複雑な手書きの表を識別し、それ以前の専門的に訓練された学生よりも優れている。厳密なスコアリングにおいて、前バージョンのGemini-2.5-ProのCERは4%、WERは11%だったが、標点や大文字小文字を除けば、2% / 4%に低下した。一方、Gemini3はエラー率を元のモデルの1/7~1/9まで圧縮し、改善率は50%~70%に達している。

転写だけでなく、「歴史的世界を理解する」ようになる

最も衝撃的だったのは低エラー率ではなく、隠れた推論能力の出現だった。

曖昧な数字に直面した際、Gemini3は欠けた文脈を独自に補完し、歴史的な通貨と重さの単位を跨いで多段階の換算を完了し、ドキュメントの世界を抽象化してモデリングする正しい結論に至った——これらの記号は訓練中に明確に定義されていなかった。

222.jpg

統計モデル内部での「自発的な論理」の覚醒?

研究者は驚嘆した: Gemini3は専門家が長年「現在の構造では越えられない」と考えていた境界を越えたように思える。

純粋な統計フレームワーク内で、認識、記憶、論理の自己組織的な結合が進行中である——これは新しいタイプの暗黙的な推論メカニズムの誕生を示唆しているのだろうか?AIbase 結論

「古文書が読めない」から「歴史的論理を推論できる」へ、Gemini3はAIが人文学における境界を再定義しつつある。

今後、歴史家だけが「過去の声を聞くことができる」存在になるとは限らない。