科学技術日報の報道によると、中国科学院自動化研究所の研究者たちは最近重要な成果を達成しました。彼らは初めて、マルチモーダルの大規模言語モデルが訓練の過程で自発的に「理解」する能力があることを証明しました。その理解の仕方は人類の認知に非常に似ています。この発見は、人工知能の思考メカニズムを探究する新しい道を開拓し、将来、人間のように世界を理解できる人工知能システムの開発に基礎を築きました。この研究成果は『ネイチャー・マシンインテリジェンス』誌に掲載されました。
理解は人類の知能の核心です。私たちが「犬」や「リンゴ」を見た時、それらの外観特徴(大きさ、色、形など)を認識するだけでなく、その用途、感覚的な影響、そして文化的な意味も理解します。このような全方向的な理解能力は、私たちが世界を認識する基盤となっています。ChatGPTなどの大規模モデルが急速に発展するにつれ、科学者たちはこれらのモデルが大量のテキストと画像から人間のように「理解」することができるかどうかを考え始めました。
画像提供元:AI生成、画像ライセンス提供サービスMidjourney
従来の人工知能の研究では、物体認識の正確性に重点が置かれていましたが、モデルが本当に物体の内包を「理解」しているかどうかを深く探求することは少なかったです。中国科学院の研究員である何輝光氏は述べています。「現在の人工知能は猫と犬の画像を区別できますが、それでも人間が猫や犬を『理解』する本質的な違いは未だに解明されていません。」
この研究では、研究チームが人間の脳の認知原理を参考に、興味深い実験を行いました。「差分を見つけろ」というゲームを通じて大規模モデルと人間を比較しました。1854種類の中から3つのアイテムの概念を選び出し、最も合わないものを特定させるようにしました。470万回の判断データを分析することで、研究者は初めて大規模モデルの「思考図」、つまり「概念マップ」を作成しました。
研究結果では、科学者たちは人工知能が「理解」するための66の主要な視点をまとめました。これらの視点は説明しやすく、人間の脳における物体処理の神経活動パターンとも非常に一致しています。特に、テキストと画像を同時に処理できるマルチモーダルモデルは、「考える」方法や選択において人間に近いものとなっています。
興味深いことに、人間が判断を行う際には物体の外観特性だけでなく、その意味や用途も考慮しますが、大規模モデルはより「テキストラベル」と抽象的な概念に依存しています。この発見は、大規模モデルが人間に似た世界理解の方法を獲得したことを示しており、人工知能の理解能力の新たな章を開いたと言えます。