南京大學與曠視研究院的研究人員們攜手,爲視覺大模型帶來了一場革命。他們推出的無監督範式——SeVa,成功解決了視覺語言模型的偏好對齊問題,而且整個過程無需人類或GPT-4的參與,大大降低了對齊成本。

這項技術的核心在於自動化構造偏好數據的pipeline,通過對比偏好對齊前後的模型輸出,可以明顯看出變化。研究人員們發現,即使是微小的圖像增廣,也可能讓VLM對同一問題產生不同的回答。因此,他們將原始圖像的回答作爲正樣本,增廣後的圖像回答作爲負樣本,用於訓練。

image.png

SeVa的實驗結果令人矚目。僅使用8k構造的無監督數據,就顯著提升了VLM的指令遵循能力,降低了幻覺,並在多模態等benchmark上取得了明顯提升。更重要的是,這種方法簡單易行,成本低廉,不需要任何人類或GPT-4的標註。

在多個benchmark上的測試結果表明,SeVa在提升視覺模型的人類偏好對齊方面具有顯著優勢。特別是在GPT-4評估的MMVet和LLaVA-bench上,SeVa的表現尤爲突出。此外,SeVa還能產生更長、更詳細的回答,且每次回答的一致性更高,對不同temperature的擾動具有更強的魯棒性。

這項研究不僅爲視覺大模型的對齊問題提供了一種有效的解決方案,也爲AI領域的發展開闢了新的可能性。隨着SeVa的開源,我們可以預見,未來將有更多的研究者和開發者利用這一範式,推動AI技術的進一步發展。在這個充滿無限可能的時代,讓我們共同期待AI技術帶來的更多驚喜。

項目地址:https://github.com/Kevinz-code/SeVa