AIによる視覚革命!脳に着想を得た新技術で機械の「視覚」がより正確に、より効率的に

従来の硬直した四角形の「フィルター」に別れを告げましょう!Lp-Convolutionという新しいAI技術が登場しました!これは人間の視覚皮質の働き方を模倣し、機械の視覚システムが人間の目のように柔軟に重要な情報に焦点を当てることを可能にします。画像認識の精度と効率が向上するだけでなく、計算負荷も大幅に軽減されます。

機械視覚の「ボトルネック」と人間の脳の「知恵」

人ごみの中で、人間の脳は子供や車が急に飛び出してくるなど、重要な詳細を瞬時に捉えることができます。しかし、従来のAI、特に広く使用されている畳み込みニューラルネットワーク(CNN)は少し「不器用」です。通常、固定サイズの四角形の「フィルター」を使用して画像をスキャンしますが、この方法は有効である一方で、断片的な情報処理やより広範なパターンの捕捉には不向きです。

image.png

近年、Vision Transformerのようなより強力なモデルが登場し、画像全体を一度に分析することで優れた性能を発揮していますが、膨大な計算量と大量のデータへの依存により、多くの実用的な場面では普及が困難です。

では、効率と性能の両方を兼ね備えた方法はないのでしょうか?基礎科学研究所(IBS)、延世大学、マックス・プランク研究所の研究チームは、人間の脳に着目しました。人間の視覚皮質は、円形かつ疎な接続によって情報を選択的に処理します。研究者たちは、この「脳に着想を得た」方法を借用して、CNNをよりスマートで強力にすることはできないかと考えました。

Lp-Convolution:AIに「慧眼」を与える

このアイデアに基づいて、研究チームはLp-Convolution技術を開発しました。その核心は、多変量p-一般化正規分布(MPND)を使用してCNNの「フィルター」を動的に再構成することです。従来のCNNの固定された四角形のフィルターとは異なり、Lp-Convolutionは、人間の脳が関連する詳細に選択的に焦点を当てるように、AIモデルがタスクのニーズに応じてフィルターの形状(例えば、横方向に伸縮したり縦方向に圧縮したり)を柔軟に調整することを可能にします。

image.png

このブレークスルーは、AI研究における長年の課題である「大核問題」(large kernel problem)を解決しました。従来、CNNフィルターのサイズを単純に大きくする(例えば、7x7以上の畳み込みカーネルを使用する)ことは、性能を向上させるどころか、パラメータが多すぎるために効果が悪くなる可能性がありました。Lp-Convolutionはこのような柔軟で生物学的に着想を得た接続パターンを導入することで、この制限を克服することに成功しました。

研究によると、Lp-Convolutionの設計は、脳の視覚皮質の情報処理構造を模倣しています。脳のニューロンの接続は広範囲かつ滑らかで、接続強度は距離とともに徐々に変化し(ガウス分布を示す)、中心と周辺の視覚情報を統合することができます。一方、従来のCNNの固定長方形領域処理方式は、遠くの視覚要素の関係を捉える能力を制限していました。Lp-Convolutionは脳の接続パターンを模倣することで、ニューロンの入力範囲と感度をガウス分布のようなものにし、訓練中に適応的に調整することで、重要な情報を強調し、些細な詳細は無視し、より柔軟で生物学的に適合した画像処理を実現します。

実測結果:より強力に、よりスマートに、より堅牢に

CIFAR-100、TinyImageNetなどの標準的な画像分類データセットでのテストでは、Lp-Convolutionは、AlexNetなどの古典的なモデルとRepLKNetなどの最新のアーキテクチャの精度を大幅に向上させました。

さらに重要なのは、この方法は破損したデータの処理において非常に高い堅牢性(耐干渉性)を示したことであり、これは現実世界のAIアプリケーションにとって非常に重要です。研究者たちはまた、Lp-Convolutionで使用されるLp-mask(一種の重み分布パターン)が高斯分布に近い場合、AIの内部処理パターンが生物学的ニューラル活動(マウスの脳データとの比較で確認)と高度に一致することを発見しました。

基礎科学研究所認知社会性センター長のC. Justin Lee博士は、「私たちは人間として、混雑した状況の中で重要な点を素早く見つけることができます。私たちのLp-Convolutionはこの能力を模倣し、AIが脳のように画像の中で最も関連性の高い部分に柔軟に焦点を当てることを可能にします。」と述べています。

影響と将来の応用:スマートビジョン新時代の幕開け

小型の硬直したフィルターに依存する以前の方法や、大量のリソースを必要とするTransformerモデルとは異なり、Lp-Convolutionは実用的で効率的な代替手段を提供します。この革新は、多くの分野で革命を起こす可能性があります。

自動運転: AIが障害物をリアルタイムで迅速に検出するのに役立ちます。

医療画像: 微細な詳細を強調することで、AI支援診断の精度を向上させます。

ロボット工学: 機械が変化する環境の中で、よりスマートで適応性の高い視覚能力を持つことを可能にします。

「この研究は、人工知能と神経科学の両方に強力な貢献です」とLeeセンター長は付け加えています。「AIを脳の働き方に近づけることで、CNNの新たな可能性を開放し、よりスマートで、適応性が高く、生物学的原理にも合致したものにしました。」

将来に向けて、研究チームは、この技術をさらに改良し、より複雑な推論タスク(数独解法など)やリアルタイム画像処理における応用を探求する予定です。

この研究成果は、国際学習表現会議(ICLR2025)で発表され、関連コードとモデルはGitHubとOpenReview.netで公開されています。