人工知能分野における最新の動向において、Ilya Sutskeverの最新声明が大きな変化をもたらした。彼は、単にモデルの規模を拡大する時代は終わったと語り、今後の飛躍はよりスマートなアーキテクチャ設計によって実現されるだろうと述べた。この発言により、AI界全体が深い転換を感じている。過去数年間の開発経路は、データとパラメータの「スケール志向」に陥っていたが、その効果は次第に薄れつつある。

このような状況の中で、中国の研究チームが開発したオープンソースのネイティブなマルチモーダルアーキテクチャであるNEOが登場した。これまで主流だったマルチモーダルモデル、例えばGPT-4VやClaude 3.5といったものとは異なり、NEOは視覚と言語の関係を根本的に再定義している。従来のマルチモーダルモデルでは視覚エンコーダーと言語モデルが別々で、データレベルで単純に結合されているため、情報伝達が不十分であった。一方、NEOは統一されたモデルを作成し、視覚と言語が最初から密接に結びついており、まるで血脉のようにつながっている。

NEOの中心的なイノベーションは、3つの技術的突破に集約される。第一に、ネイティブなタイル埋め込み技術を導入し、AIがピクセルから直接高精細な視覚表現を構築できるようにしたことで、画像の詳細な捉え方が向上した。第二に、ネイティブな三次元回転位置符号化を開発し、高周波と低周波の異なる組み合わせを利用して、画像とテキストにおける位置関係を正確に処理し、知的な時空間座標系を形成した。第三に、ネイティブなマルチヘッドアテンション機構により、視覚と言語の情報が同じフレームワーク内で交信可能となり、モデルが複雑な意味の理解能力を大幅に強化した。

驚くべきことに、NEOは従来のモデルの10分の1のトレーニングデータで、多くの評価テストにおいて既存のハイエンドモデルと同等または上回る結果を出している。この成果は、ネイティブなアーキテクチャの有効性を証明するだけでなく、AIモデルの開発の新たな方向を示すものでもある。