2024年9月4日,北京智源人工智能研究院(BAAI)宣佈推出全球首個包含文生視頻的模型對戰評測服務——FlagEval大模型角鬥場。

這一服務面向用戶開放,覆蓋了國內外約40款大模型,並支持語言問答、多模態圖文理解、文生圖、文生視頻等四大任務的自定義在線或離線評測。FlagEval大模型角鬥場的推出,不僅提供了簡單理解、知識應用、代碼能力、推理能力等多種預設問題的評測,還首次引入了主觀傾向階梯評分體系,以更精確地揭示模型性能差異。

微信截圖_20240905084138.png

該服務採取匿名機制進行評測,確保評測過程的公正性。用戶可以通過網頁端或國內首個移動端訪問入口參與評測,體驗高效的模型對戰評測。FlagEval大模型角鬥場的評分結果將即時公示,形成角鬥場榜單,展現各模型的對戰能力。

智源研究院表示,將對模型對戰評測的全鏈路數據進行開源,以促進大模型評測生態的發展。FlagEval大模型角鬥場的推出,進一步拓展了智源在模型評測領域的技術佈局和工具方法的研發,爲人工智能領域的研究和應用提供了新的測試和評估工具。

體驗地址:https://flageval.baai.ac.cn/#/home