相關推薦
基準測試不等於真實能力?研究稱AI代碼“通過率”或被高估最高達7倍
研究指出,SWE-bench Verified基準測試可能高估AI編程能力。該測試中被判“通過”的AI代碼方案,約一半在實際項目審覈中會被拒絕,顯示自動化評測與真實工程質量存在明顯差距。這一發現對AI輔助軟件工程評估標準提出了重要質疑。
Mar 12, 2026
147.1k
Suno 壓力大了!騰訊聯手清華髮布 SongGeneration 2,音素錯誤率低至 8.55%
騰訊與清華大學聯合推出AI音樂模型SongGeneration2,在技術架構和音樂質量上實現重大突破,顯著超越現有開源模型,甚至媲美頂級商業產品,有效解決了AI音樂的“塑料感”問題。
Mar 10, 2026
175.2k
清華大學發佈首個系統性《人工智能教育應用指導原則》:嚴防“AI 學術依賴”
清華大學發佈首份AI教育應用指導原則,系統規範校園AI使用,覆蓋教學、科研等核心場景。文件分總則、教學、學位論文三部分,強調“積極而審慎”立場,旨在全局引導AI合理應用。
Nov 27, 2025
179.8k
清華大學發佈 AI 應用指導原則:禁止將 AI 生成內容用作學業成果
清華大學發佈《人工智能教育應用指導原則》,系統規範校園AI使用,涵蓋教學、學術研究等核心場景。內容分爲總則、教學篇、學位論文及實踐成果篇三部分,強調積極引導與分層管理,旨在促進AI在教育領域的合理應用。
Nov 27, 2025
188.2k
清華新發現:AI大模型不止看“塊頭”,更要重視密度
清華大學在《自然・機器智能》發表研究,提出“能力密度”新概念,挑戰傳統AI評估標準。研究強調不應僅關注模型參數數量,而應重視每個參數的智能水平,質疑“模型越大能力越強”的規模法則。
Nov 24, 2025
151.7k
