人工智能初創公司 Cohere 的非營利研究實驗室本週發佈了一款多模態 “開放” AI 模型 ——Aya Vision。該實驗室聲稱,該模型在行業內處於領先地位。
Aya Vision 能夠執行多項任務,包括撰寫圖片說明、回答與照片相關的問題、翻譯文本以及生成23種主要語言的摘要。Cohere 表示,他們通過 WhatsApp 免費提供 Aya Vision,希望能讓世界各地的研究人員更方便地獲取技術突破。
Cohere 在其博客中指出,儘管人工智能已經取得了顯著進展,但在不同語言之間的模型表現仍存在很大差距,尤其是在涉及文本和圖像的多模態任務中。“Aya Vision 的目標就是幫助縮小這一差距。”
Aya Vision 有兩個版本:Aya Vision32B 和 Aya Vision8B。更爲先進的 Aya Vision32B 被稱爲 “新邊界”,在某些視覺理解基準測試中表現超越了體量爲其兩倍的模型,包括 Meta 的 Llama-3.290B Vision。同時,Aya Vision8B 在某些評估中表現也優於一些體量爲其十倍的模型。
這兩個模型在 AI 開發平臺 Hugging Face 上以 Creative Commons4.0許可證的形式提供,用戶需遵循 Cohere 的可接受使用附錄,且不可用於商業應用。
Cohere 表示,Aya Vision 的訓練採用了一種 “多樣化的” 英語數據集,實驗室將這些數據集翻譯後,使用合成標註進行訓練。合成標註是指由 AI 生成的標註,有助於模型在訓練過程中理解和解釋數據。儘管合成數據存在潛在缺點,但像 OpenAI 等競爭對手也在越來越多地使用合成數據來訓練模型。
Cohere 指出,使用合成標註訓練 Aya Vision 使得他們能夠減少資源的使用,同時仍能取得競爭力的表現。“這展示了我們對效率的重視,利用更少的計算資源實現更多成果。”
爲了進一步支持研究界,Cohere 還發布了一套新的基準評估工具 ——AyaVisionBench,旨在考察模型在視覺與語言結合任務中的能力,如識別兩張圖像的差異和將屏幕截圖轉換爲代碼。
當前,人工智能行業正面臨所謂的 “評估危機”,這主要源於流行基準的廣泛使用,這些基準的總分與大多數 AI 用戶關心的任務的能力相關性較差。Cohere 聲稱,AyaVisionBench 爲評估模型的跨語言和多模態理解提供了一個 “廣泛且具有挑戰性” 的框架。
官方博客:https://cohere.com/blog/aya-vision
劃重點:
🌟 Aya Vision 模型被 Cohere 稱爲行業最佳,能夠執行多種語言和視覺任務。
💡 Aya Vision 有兩個版本,分別爲32B 和8B,表現超越體量更大的競爭模型。
🔍 Cohere 還發布了新的基準評估工具 AyaVisionBench,旨在改善 AI 模型評估問題。