谷歌推出 LMEval:統一評估大語言與多模態模型的新工具

近日，谷歌宣佈推出 LMEval，這是一個開源框架，旨在簡化和標準化對大型語言和多模態模型的評估。該工具爲研究人員和開發者提供了一個統一的評估流程，可以方便地對來自不同公司的 AI 模型進行比較，比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。

以往，對新 AI 模型的比較往往比較複雜，因爲各個提供商使用自己的 API、數據格式和基準設置，導致評估效率低下且難以進行。因此，LMEval 應運而生，它通過標準化評估流程，使得一旦設置好基準，就能輕鬆地將其應用於任何支持的模型，幾乎無需額外工作。

LMEval 不僅支持文本評估，還擴展到了圖像和代碼的評估。谷歌表示，用戶可以輕鬆添加新的輸入格式。系統能夠處理多種評估類型，包括是非題、多選題和自由文本生成。同時，LMEval 能夠識別 “推脫策略”，即模型故意給出模棱兩可的答案以避免生成有問題或風險的內容。

該系統在 LiteLLM 框架上運行，能夠平滑處理谷歌、OpenAI、Anthropic、Ollama 和 Hugging Face 等不同提供商的 API 差異。這意味着相同的測試可以在多個平臺上運行，而無需重新編寫代碼。一個突出的特點是增量評估，用戶無需每次都重新運行整個測試套件，而只需執行新增的測試，這不僅節省了時間，也降低了計算成本。此外，LMEval 還使用多線程引擎加快計算速度，能夠並行運行多個計算。

谷歌還提供了一個名爲 LMEvalboard 的可視化工具，用戶可以利用該儀表板分析測試結果。通過生成雷達圖，用戶可以查看模型在不同類別上的表現，並深入探討個別模型的表現。該工具支持用戶進行模型間的比較，包括在特定問題上的並排圖形顯示，方便用戶瞭解不同模型的差異。

LMEval 的源代碼和示例筆記本已經在 GitHub 上公開，供廣大開發者使用和研究。

項目：https://github.com/google/lmeval

劃重點:
🌟 LMEval 是谷歌推出的開源框架，旨在統一評估不同公司的大型 AI 模型。
🖼️ 支持文本、圖像和代碼的多模態評估，且可輕鬆添加新的輸入格式。
📊 提供 LMEvalboard 可視化工具，幫助用戶深入分析和比較模型表現。

谷歌推出 LMEval:統一評估大語言與多模態模型的新工具

相關推薦

科研界的“幻覺殺手”：OpenScholar 模型誕生，引文準確率比肩人類專家

AI 學霸遭遇重創！GPT-4o 專家考試僅得 2.7 分

OpenAI 宣佈停用 GPT-4o 等多款模型，用戶轉向新一代技術

告別 GPT-4o：OpenAI 宣佈停用多款經典大模型

印度版“DeepSeek”問世?Alpie 大模型憑藉“套殼”技術逆襲榜單

​谷歌推出 LMEval:統一評估大語言與多模態模型的新工具

相關推薦

​科研界的“幻覺殺手”：OpenScholar 模型誕生，引文準確率比肩人類專家

AI 學霸遭遇重創！GPT-4o 專家考試僅得 2.7 分

OpenAI 宣佈停用 GPT-4o 等多款模型，用戶轉向新一代技術

告別 GPT-4o：OpenAI 宣佈停用多款經典大模型

​印度版“DeepSeek”問世?Alpie 大模型憑藉“套殼”技術逆襲榜單

谷歌推出 LMEval:統一評估大語言與多模態模型的新工具

科研界的“幻覺殺手”：OpenScholar 模型誕生，引文準確率比肩人類專家

印度版“DeepSeek”問世?Alpie 大模型憑藉“套殼”技術逆襲榜單