南京大学と曠視研究院の研究者らは共同で、ビジョン大規模モデルに革命をもたらしました。彼らが発表した教師なし学習パラダイム「SeVa」は、視覚言語モデルの嗜好アライメント問題を解決することに成功しました。しかも、このプロセスは人間やGPT-4の介入を一切必要とせず、アライメントコストを大幅に削減します。

この技術の中核は、嗜好データの自動構築パイプラインにあります。嗜好アライメントの前後のモデル出力を比較することで、その変化を明確に確認できます。研究者らは、わずかな画像拡張でも、VLMが同じ問題に対して異なる回答を生成する可能性があることを発見しました。そこで、元の画像の回答を正例、拡張後の画像の回答を負例として、学習に使用しています。

image.png

SeVaの実験結果は注目に値します。わずか8kの教師なしデータを用いるだけで、VLMの指示遵守能力を大幅に向上させ、幻覚を低減し、マルチモーダルなどのベンチマークで顕著な改善を実現しました。さらに重要なのは、この方法はシンプルで容易であり、コストが低く、人間やGPT-4によるアノテーションを一切必要としない点です。

複数のベンチマークテストの結果は、SeVaが視覚モデルの人間の嗜好アライメントの向上において顕著な優位性を持つことを示しています。特に、GPT-4による評価であるMMVetとLLaVA-benchでは、SeVaの性能は特に優れています。さらに、SeVaはより長く、詳細な回答を生成し、各回答の一貫性も高く、異なるtemperatureの摂動に対してより強いロバスト性を示します。

この研究は、視覚大規模モデルのアライメント問題に対する効果的な解決策を提供するだけでなく、AI分野の発展に新たな可能性を切り開きます。SeVaのオープンソース化に伴い、今後より多くの研究者や開発者がこのパラダイムを利用して、AI技術の更なる発展を促進すると予想されます。無限の可能性に満ちたこの時代、AI技術がもたらす更なる驚きを共に期待しましょう。

プロジェクトアドレス:https://github.com/Kevinz-code/SeVa