在近日的發佈會上,阿里國際 AI 團隊揭曉了其最新研發的多模態大模型 Ovis,這一創新的 AI 技術無疑爲各行業帶來了新的機遇。Ovis 具備強大的圖像理解和數據處理能力,讓人耳目一新。
Ovis 的多模態能力極其強大,它能夠處理文本、圖像等多種數據,展現出優秀的綜合實力。與傳統的大語言模型相比,Ovis 不僅能理解文本,還能對圖像等非文本信息進行深入分析。
比如說,用戶只需上傳一張菜品的照片,Ovis 便能迅速識別並提供詳細的烹飪步驟,幫助用戶輕鬆做出美味佳餚。

Ovis通過對圖片的識別處理能夠給出菜譜
根據多模態評測平臺 OpenCompass 的數據,Ovis1.6-Gemma2-9B 在30B 參數以下的模型中,取得了綜合排名第一,超越了 MiniCPM-V-2.6等一系列優秀模型。這項成就證明了 Ovis 在市場中的競爭力。

Ovis在OpenCompass上的測評數據情況
此外,Ovis 在數學推理、物體識別和複雜決策等領域表現出色。例如,它能精準地解答數學題、識別花卉品種,甚至在手寫文本的翻譯上也毫不遜色。Ovis 的五大核心優勢中,最引人關注的是其創新的架構設計和高分辨率圖像處理能力,使得它在多模態任務中的表現大幅提升。
Ovis 的開源策略同樣令人稱道。它的 License 採用 Apache2.0協議,意味着用戶可以自由使用和改進這個模型。Ovis 系列的模型和代碼都已在 GitHub 上開源,開發者們可以輕鬆獲取並進行二次開發。
在自動駕駛、醫療診斷、視頻內容理解等廣泛應用場景中,多模態大模型 Ovis 都顯示出了巨大的潛力。阿里國際團隊透露,近半年的數據顯示,商家對 AI 的需求不斷增長,平均每兩個月調用量翻一番,Ovis 無疑將助力更多商家提升運營效率。
劃重點:
1️⃣ Ovis 是一款多模態大模型,能夠處理文本和圖像等多種數據類型,展現出色的綜合能力。
2️⃣ Ovis1.6-Gemma2-9B 在 OpenCompass 評測中獲得30B 參數以下模型的綜合排名第一,超越了多款優秀競爭者。
3️⃣ Ovis 採用 Apache2.0開源協議,所有模型和代碼已在 GitHub 上公開,開發者可自由使用與改進。
