SuperCLUE 發佈了中文大模型 8 月榜單,其中包括總排行榜、OPEN 多輪開放問題排行榜、OPT 三大能力客觀題排行榜、十大基礎能力排行榜和開源排行榜。評測選取了 16 個通用大語言模型,並使用了 3337 道全新的測試題。此次評測發現,國內大模型在中文任務上的表現與 GPT3.5 的差距在持續縮小。
相關推薦
百度發佈首款中文大模型AI眼鏡:45克輕量設計,續航達56小時
百度在2024世界大會上首次亮相其最新AI硬件產品——小度AI眼鏡。這款被稱爲"全球首款搭載中文大模型的原生AI眼鏡"的產品,展現了百度在可穿戴設備領域的創新實力。從硬件規格來看,小度AI眼鏡在輕量化設計上取得突破,整機重量僅45克,確保佩戴舒適度。配備16MP超廣角攝像頭,集成AI防抖算法,可實現穩定的第一視角拍攝。在續航方面,官方數據顯示待機時間可達56小時,支持超過5小時的持續聆聽模式,同時具備30分鐘快充能力。聲學系統採用四麥克風陣列設計,配合開放式防漏音揚
智源研究院推出全球首箇中文大模型辯論平臺FlagEval Debate
北京智源人工智能研究院(BAAI)最近推出了全球首箇中文大模型辯論平臺FlagEval Debate。這一新平臺旨在通過模型辯論這一競爭機制,爲大語言模型的能力評估提供新的度量方式。它是智源模型對戰評測服務FlagEval大模型角鬥場的擴展,目標是甄別大語言模型之間的能力差異。
智源研究院發佈代碼生成訓練數據集 TACO
["智源研究院發佈了名爲 TACO 的代碼生成訓練數據集,旨在爲代碼生成模型提供更具挑戰性的訓練數據和評測基準。","TACO 在數據規模、質量和評測方案上具有優勢,包括更大規模的訓練集和測試集,多樣化的解題答案,以及細粒度的標籤。","實驗結果顯示,當前流行的代碼生成模型在 TACO 評測中與 GPT-4 存在顯著差異,說明該領域仍有提升空間。","TACO 不僅是一個挑戰性的測試方法,還可用作改進模型性能的訓練數據,促進代碼生成領域的發展。"]
智譜 AI 發佈中文 LLM 對齊評測基準 AlignBench
["智譜 AI 發佈了針對中文大模型的評測基準 AlignBench","AlignBench 能夠在多維度上細緻評測模型和人類意圖的對齊水平","數據集分爲 8 個大類,包括知識問答、寫作生成、角色扮演等多種類型的問題","開發者可以利用 AlignBench 進行評測,並使用評價能力較強的打分模型進行評分","通過登錄 AlignBench 網站,提交結果可以使用 CritiqueLLM 作爲評分模型進行評測"]
騰訊自研大模型混元2.0發佈:多方面能力提升
騰訊自研大模型混元2.0(Tencent HY2.0)正式發佈,與此同時,DeepSeek V3.2也逐步接入騰訊生態。目前,這兩大模型已在元寶、ima等騰訊AI原生應用中率先上線,騰訊雲也同步開放了相關模型的API及平臺服務。 全新發布的Tencent HY2.0採用混合專家(MoE)架構,總參數量高達4
