2025 年 2 月 21 日,阿里巴巴國際化團隊宣佈其新型多模態大語言模型Ovis2 系列正式開源。

Ovis2 是阿里巴巴國際化團隊提出的Ovis系列模型的最新版本。與前序1. 6 版本相比,Ovis2 在數據構造和訓練方法上都有顯著改進。它不僅強化了小規模模型的能力密度,還通過指令微調和偏好學習大幅提升了思維鏈(CoT)推理能力。此外,Ovis2 引入了視頻和多圖像處理能力,並增強了多語言能力和複雜場景下的OCR能力,顯著提升了模型的實用性。

此次開源的Ovis2 系列包括1B、2B、4B、8B、16B和34B六個版本,各個參數版本均達到了同尺寸的SOTA(State of the Art)水平。其中,Ovis2-34B在權威評測榜單OpenCompass上展現出了卓越的性能。在多模態通用能力榜單上,Ovis2-34B位列所有開源模型第二,以不到一半的參數尺寸超過了諸多70B開源旗艦模型。在多模態數學推理榜單上,Ovis2-34B更是位列所有開源模型第一,其他尺寸版本也展現出出色的推理能力。這些成績不僅證明了Ovis架構的有效性,也展示了開源社區在推動多模態大模型發展方面的巨大潛力。

微信截圖_20250221172215.png

Ovis2 的架構設計巧妙地解決了模態間嵌入策略差異這一侷限性。它由視覺tokenizer、視覺嵌入表和LLM三個關鍵組件構成。視覺tokenizer將輸入圖像分割成多個圖像塊,利用視覺Transformer提取特徵,並通過視覺頭層將特徵匹配到“視覺單詞”上,得到概率化的視覺token。視覺嵌入表存儲每個視覺單詞對應的嵌入向量,而LLM則將視覺嵌入向量與文本嵌入向量拼接後進行處理,生成文本輸出,完成多模態任務。

在訓練策略上,Ovis2 採用了四階段訓練方法,以充分激發其多模態理解能力。第一階段凍結大部分LLM和ViT參數,訓練視覺模塊,學習視覺特徵到嵌入的轉化。第二階段進一步增強視覺模塊的特徵提取能力,提升高分辨率圖像理解、多語言和OCR能力。第三階段通過對話形式的視覺Caption數據對齊視覺嵌入與LLM的對話格式。第四階段則是多模態指令訓練和偏好學習,進一步提升模型在多種模態下對用戶指令的遵循能力和輸出質量。

爲了提升視頻理解能力,Ovis2 開發了一種創新的關鍵幀選擇算法。該算法基於幀與文本的相關性、幀之間的組合多樣性和幀的序列性挑選最有用的視頻幀。通過高維條件相似度計算、行列式點過程(DPP)和馬爾可夫決策過程(MDP),算法能夠在有限的視覺上下文中高效地選擇關鍵幀,從而提升視頻理解的性能。

Ovis2 系列模型在OpenCompass多模態評測榜單上的表現尤爲突出。不同尺寸的模型在多個Benchmark上均取得了SOTA成績。例如,Ovis2-34B在多模態通用能力和數學推理榜單上分別位列第二和第一,展現了其強大的性能。此外,Ovis2 在視頻理解榜單上也取得了領先性能,進一步證明了其在多模態任務中的優勢。

阿里巴巴國際化團隊表示,開源是推動AI技術進步的關鍵力量。通過公開分享Ovis2 的研究成果,團隊期待與全球開發者共同探索多模態大模型的前沿,並激發更多創新應用。目前,Ovis2 的代碼已開源至GitHub,模型可在Hugging Face和Modelscope平臺上獲取,同時提供了在線Demo供用戶體驗。相關研究論文也已發佈在arXiv上,供開發者和研究者參考。

代碼:https://github.com/AIDC-AI/Ovis

模型(Huggingface):https://huggingface.co/AIDC-AI/Ovis2-34B

模型(Modelscope):https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45

Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B

arXiv: https://arxiv.org/abs/2405.20797