最近、謝賽寧チームの新作「iREPA」は、4か月にわたるツイッターでの議論から生まれました。この論争は謝賽寧の譲歩で終わりましたが、偶然にも重要な論文を生み出し、新しい研究のアプローチを示しました。

出来事の発端は8月にさかのぼります。その頃、あるネットユーザーがツイッターで自己監督学習(SSL)モデルについての意見を述べ、それらが密なタスクに焦点を当てなければならないと主張しました。なぜなら、これらのタスクは画像の空間的および局所的な情報を必要とするため、単なる全体的な分類性能だけでは不十分だと考えたからです。謝賽寧はこれに反論し、全体的な性能と密なタスクには直接的な関係がないと述べました。

ネットユーザーたちが熱心に議論を展開し、そのうち一人はREPAと比較可能な手法を紹介しました。この議論は謝賽寧の興味を引き、この問題を深く探求するきっかけとなりました。数か月後、謝賽寧は自分の以前の見解が修正されたことを明らかにし、この論文の研究が視覚エンコーダーの生成能力を理解する新たな視点を提供したと語りました。

この論文では、予学習された視覚エンコーダーにおいて、生成モデルのパフォーマンスを決定する要因はどの部分であるかを探りました。その結果、空間構造の情報が、全体的な意味ではなく、生成品質の鍵であることが示されました。従来の見解では、より良い全体的な意味情報が生成効果を向上させるとされていましたが、研究結果によれば、実際には低い正確度の視覚エンコーダーの方が生成性能が良くなることがあるのです。

この問題を解決するために、研究者たちはiREPAという新しい枠組みを提案しました。このフレームワークは、任意の表現対応方法に3行のコードで簡単に統合できます。PAの改善により、例えば従来のMLPプロジェクション層に畳み込み層を置き換えることで、空間構造情報が強化され、生成性能が顕著に向上しました。

この学術的な議論は、オープンで協力的な研究環境を示すだけでなく、交流と実験を通じて知識を得ることの重要性を強調しています。