智譜 AI 發佈中文 LLM 對齊評測基準 AlignBench

智譜 AI 發佈了專爲中文大語言模型（LLM）而生的對齊評測基準 AlignBench，這是目前第一個針對中文大模型的評測基準，能夠在多維度上細緻評測模型和人類意圖的對齊水平。AlignBench 的數據集來自於真實的使用場景，經過初步構造、敏感性篩查、參考答案生成和難度篩選等步驟，確保具有真實性和挑戰性。數據集分爲 8 個大類，包括知識問答、寫作生成、角色扮演等多種類型的問題。爲了實現自動化和可復現性，AlignBench 採用評分模型（如 GPT-4 和 CritiqueLLM）爲每個模型的回答打分，代表其回答質量。評分模型具有多維度、規則校準的評分方法，提高了模型評分和人類評分的一致性，並提供了細緻的評測分析和評測分數。開發者可以利用 AlignBench 進行評測，並使用評價能力較強的打分模型（如 GPT-4 或 CritiqueLLM）進行評分。通過 AlignBench 網站，提交結果可以使用 CritiqueLLM 作爲評分模型進行評測，大約 5 分鐘即可得到評測結果。

百度發佈首款中文大模型AI眼鏡：45克輕量設計，續航達56小時

百度在2024世界大會上首次亮相其最新AI硬件產品——小度AI眼鏡。這款被稱爲"全球首款搭載中文大模型的原生AI眼鏡"的產品，展現了百度在可穿戴設備領域的創新實力。從硬件規格來看，小度AI眼鏡在輕量化設計上取得突破，整機重量僅45克，確保佩戴舒適度。配備16MP超廣角攝像頭，集成AI防抖算法，可實現穩定的第一視角拍攝。在續航方面，官方數據顯示待機時間可達56小時，支持超過5小時的持續聆聽模式，同時具備30分鐘快充能力。聲學系統採用四麥克風陣列設計，配合開放式防漏音揚

智源研究院推出全球首箇中文大模型辯論平臺FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首箇中文大模型辯論平臺FlagEval Debate。這一新平臺旨在通過模型辯論這一競爭機制，爲大語言模型的能力評估提供新的度量方式。它是智源模型對戰評測服務FlagEval大模型角鬥場的擴展，目標是甄別大語言模型之間的能力差異。

智譜 AI 發佈第三代基座大模型 ChatGLM3 智譜清言具備代碼交互能力

["智譜 AI 在 2023 中國計算機大會上發佈第三代基座大模型 ChatGLM3","ChatGLM3 具備多模態理解能力、代碼生成和執行、網絡搜索增強等新功能","ChatGLM3 經過深度優化，在中英文公開數據集測試中表現優秀","智譜清言成爲國內首個具備代碼交互能力的大模型產品","智譜 AI 期待國產原生大模型與國產芯片在國際舞臺上脫穎而出"]

智譜 AI 發佈 MathGLM 數學模型，算術任務性能優於 GPT-4

["智譜 AI 發佈 MathGLM 數學模型，旨在增強大模型在數學推理方面的性能。","MathGLM 能夠精確計算算術運算，包括基礎算術運算和複雜混合運算。","MathGLM 在中文數學解決能力方面表現出色。","MathGLM 的算術任務性能優於 GPT-4。","MathGLM 在解決不同年級數學問題和數學應用題上取得了較好的結果。"]

智譜 AI 完成 B-4 輪融資騰訊阿里參投

["智譜 AI 完成 B-4 輪融資，騰訊和阿里參與投資。","融資金額達 10 億美元，估值達 10 億美元。","智譜 AI 由清華大學計算機系技術成果轉化而來。","智譜 AI 致力於打造新一代認知智能通用模型。","智譜 AI 推出了認知大模型平臺 Bigmodel.ai。"]