近日,北京大學等科研團隊宣佈發佈了一款名爲 LLaVA-o1的多模態開源模型,據稱這是首個能夠進行自發、系統推理的視覺語言模型,堪比 GPT-o1。

該模型在六個具有挑戰性的多模態基準測試中表現優異,其11B 參數的版本超越了其他競爭者,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。

image.png

LLaVA-o1基於 Llama-3.2-Vision 模型,採用了 “慢思考” 推理機制,能夠自主進行更加複雜的推理過程,超越了傳統的思維鏈提示方法。

在多模態推理基準測試中,LLaVA-o1的表現超出了其基礎模型8.9%。該模型的獨特之處在於其推理過程被分爲四個階段:總結、視覺解釋、邏輯推理和結論生成。在傳統模型中,推理過程往往比較簡單,容易導致錯誤答案,而 LLaVA-o1通過結構化的多步驟推理,確保了更爲精準的輸出。

例如,在解決 “減去所有的小亮球和紫色物體,剩下多少個物體?” 的問題時,LLaVA-o1會首先總結問題,接着從圖像中提取信息,然後進行逐步推理,最終給出答案。這種分階段的方法提升了模型的系統推理能力,使其在處理複雜問題時更爲高效。

image.png

值得一提的是,LLaVA-o1在推理過程中引入了階段級光束搜索方法。這種方法允許模型在每個推理階段生成多個候選答案,並選擇最佳的答案繼續進行下一階段的推理,從而顯著提高了整體推理質量。通過監督微調和合理的訓練數據,LLaVA-o1在與更大或閉源模型的比較中表現出色。

北大團隊的研究成果不僅推動了多模態 AI 的發展,也爲未來的視覺語言理解模型提供了新的思路和方法。團隊表示,LLaVA-o1的代碼、預訓練權重和數據集都將全面開源,期待更多研究者和開發者能夠共同探索和應用這一創新模型。

論文:https://arxiv.org/abs/2411.10440

GitHub:https://github.com/PKU-YuanGroup/LLaVA-o1

劃重點:

🌟 LLaVA-o1是北京大學等團隊發佈的全新多模態推理模型,具備 “慢思考” 推理能力。  

📈 該模型在多模態推理基準測試中性能超越基礎模型8.9%。  

🔍 LLaVA-o1通過結構化的多步驟推理,確保準確性,並將於近期開源。