近日,美團 LongCat 團隊推出了一個名爲 UNO-Bench 的全新基準測試,旨在系統性地評估這些模型在不同模態下的理解能力。這個基準測試涵蓋了44種任務類型和5種模態組合,力求全面展現模型的單模態與全模態的性能。
UNO-Bench 的核心在於其豐富的數據集。團隊精心挑選了1250個全模態樣本,這些樣本的跨模態可解性高達98%。同時,還增加了2480個經過增強的單模態樣本。這些樣本不僅充分考慮了真實場景的應用,尤其在中文語境下表現尤爲出色。而值得一提的是,經過自動壓縮處理後,這些數據集的運行速度提高了90%,並在18個公開基準測試中保持了高達98% 的一致性。

爲了更好地評估模型的複雜推理能力,UNO-Bench 還引入了一種創新的多步驟開放式問題形式。這種形式結合了一個通用的評分模型,能夠自動評估六種不同題型,準確率達到了驚人的95%。這種創新的評估方式,無疑爲多模態模型的評測提供了新的思路。

目前,UNO-Bench 主要聚焦於中文場景,團隊表示正在積極尋求合作伙伴,計劃共同開發英語及多語言版本。感興趣的開發者可以通過 Hugging Face 平臺下載 UNO-Bench 數據集,相關代碼和項目文檔也已在 GitHub 上公開。
隨着 UNO-Bench 的發佈,多模態大語言模型的評估標準將得到進一步提升,這不僅爲研究者提供了有力的工具,也爲整個行業的進步鋪平了道路。
項目地址:https://meituan-longcat.github.io/UNO-Bench/
