AIbaseの報道によると、Meta AIの研究チームは最近、ピクシオ(Pixio)と呼ばれる画像モデルに関する研究を発表し、より単純なトレーニング経路でも、深さ推定や3D再構築などの複雑な視覚タスクにおいて優れた性能を示すことを実証しました。長期間にわたり、学術界ではマスク自己符号化器(MAE)技術がシーン理解においてDINOv2やDINOv3などの複雑なアルゴリズムよりも劣っていると考えられていましたが、ピクシオの登場によりこの常識が打ち破られました。

ピクシオのコアロジックは、2021年のMAEフレームワークの深い改良に基づいています。研究者らは、元の設計において解码器が弱かったため、エンコーダーのパフォーマンスが制限されていたことに気づき、解码器の機能を大幅に強化し、画像のマスク領域を拡大しました。小さなマスクのブロックを大きな連続した領域に変更することで、ピクシオは単純なピクセルコピーを諦め、画像内の物体共現、3D透視図法および反射などの空間関係を本当に「理解」する必要がありました。また、複数のカテゴリタグを導入して全体的な属性を集約することで、モデルはシーンタイプ、カメラの角度、照明情報などをより正確に捉えることができます。

トレーニング戦略において、ピクシオは非常に純粋な方法を採用しています。DINOv3が特定のベンチマークテスト(例えばImageNet)に対して繰り返し最適化されるのとは異なり、ピクシオはネットワークから20億枚の画像を収集し、動的周波数調整を採用しています:簡単な製品写真の重みを減らし、複雑なシーンのトレーニング頻度を増やすことで、テストセットに特化した「点数を稼ぐ」ようなやり方ではなく、モデルに高い移行能力を与えています。

