8 月榜單！SuperCLUE 中文大模型評測基準最新排名發佈

SuperCLUE 發佈了中文大模型 8 月榜單，其中包括總排行榜、OPEN 多輪開放問題排行榜、OPT 三大能力客觀題排行榜、十大基礎能力排行榜和開源排行榜。評測選取了 16 個通用大語言模型，並使用了 3337 道全新的測試題。此次評測發現，國內大模型在中文任務上的表現與 GPT3.5 的差距在持續縮小。

百度發佈首款中文大模型AI眼鏡：45克輕量設計，續航達56小時

百度在2024世界大會上首次亮相其最新AI硬件產品——小度AI眼鏡。這款被稱爲"全球首款搭載中文大模型的原生AI眼鏡"的產品，展現了百度在可穿戴設備領域的創新實力。從硬件規格來看，小度AI眼鏡在輕量化設計上取得突破，整機重量僅45克，確保佩戴舒適度。配備16MP超廣角攝像頭，集成AI防抖算法，可實現穩定的第一視角拍攝。在續航方面，官方數據顯示待機時間可達56小時，支持超過5小時的持續聆聽模式，同時具備30分鐘快充能力。聲學系統採用四麥克風陣列設計，配合開放式防漏音揚

智源研究院推出全球首箇中文大模型辯論平臺FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首箇中文大模型辯論平臺FlagEval Debate。這一新平臺旨在通過模型辯論這一競爭機制，爲大語言模型的能力評估提供新的度量方式。它是智源模型對戰評測服務FlagEval大模型角鬥場的擴展，目標是甄別大語言模型之間的能力差異。

智源研究院發佈代碼生成訓練數據集 TACO

["智源研究院發佈了名爲 TACO 的代碼生成訓練數據集，旨在爲代碼生成模型提供更具挑戰性的訓練數據和評測基準。","TACO 在數據規模、質量和評測方案上具有優勢，包括更大規模的訓練集和測試集，多樣化的解題答案，以及細粒度的標籤。","實驗結果顯示，當前流行的代碼生成模型在 TACO 評測中與 GPT-4 存在顯著差異，說明該領域仍有提升空間。","TACO 不僅是一個挑戰性的測試方法，還可用作改進模型性能的訓練數據，促進代碼生成領域的發展。"]

智譜 AI 發佈中文 LLM 對齊評測基準 AlignBench

["智譜 AI 發佈了針對中文大模型的評測基準 AlignBench","AlignBench 能夠在多維度上細緻評測模型和人類意圖的對齊水平","數據集分爲 8 個大類，包括知識問答、寫作生成、角色扮演等多種類型的問題","開發者可以利用 AlignBench 進行評測，並使用評價能力較強的打分模型進行評分","通過登錄 AlignBench 網站，提交結果可以使用 CritiqueLLM 作爲評分模型進行評測"]

NVIDIA 發佈 Nemotron 3 Embed 系列，8B 版本登頂 RTEB 檢索基準