近日,谷歌宣佈推出 LMEval,這是一個開源框架,旨在簡化和標準化對大型語言和多模態模型的評估。該工具爲研究人員和開發者提供了一個統一的評估流程,可以方便地對來自不同公司的 AI 模型進行比較,比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。

image.png

以往,對新 AI 模型的比較往往比較複雜,因爲各個提供商使用自己的 API、數據格式和基準設置,導致評估效率低下且難以進行。因此,LMEval 應運而生,它通過標準化評估流程,使得一旦設置好基準,就能輕鬆地將其應用於任何支持的模型,幾乎無需額外工作。

LMEval 不僅支持文本評估,還擴展到了圖像和代碼的評估。谷歌表示,用戶可以輕鬆添加新的輸入格式。系統能夠處理多種評估類型,包括是非題、多選題和自由文本生成。同時,LMEval 能夠識別 “推脫策略”,即模型故意給出模棱兩可的答案以避免生成有問題或風險的內容。

該系統在 LiteLLM 框架上運行,能夠平滑處理谷歌、OpenAI、Anthropic、Ollama 和 Hugging Face 等不同提供商的 API 差異。這意味着相同的測試可以在多個平臺上運行,而無需重新編寫代碼。一個突出的特點是增量評估,用戶無需每次都重新運行整個測試套件,而只需執行新增的測試,這不僅節省了時間,也降低了計算成本。此外,LMEval 還使用多線程引擎加快計算速度,能夠並行運行多個計算。

谷歌還提供了一個名爲 LMEvalboard 的可視化工具,用戶可以利用該儀表板分析測試結果。通過生成雷達圖,用戶可以查看模型在不同類別上的表現,並深入探討個別模型的表現。該工具支持用戶進行模型間的比較,包括在特定問題上的並排圖形顯示,方便用戶瞭解不同模型的差異。

LMEval 的源代碼和示例筆記本已經在 GitHub 上公開,供廣大開發者使用和研究。

項目:https://github.com/google/lmeval

劃重點:

🌟 LMEval 是谷歌推出的開源框架,旨在統一評估不同公司的大型 AI 模型。  

🖼️ 支持文本、圖像和代碼的多模態評估,且可輕鬆添加新的輸入格式。  

📊 提供 LMEvalboard 可視化工具,幫助用戶深入分析和比較模型表現。