相关推荐
基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍
研究指出,SWE-bench Verified基准测试可能高估AI编程能力。该测试中被判“通过”的AI代码方案,约一半在实际项目审核中会被拒绝,显示自动化评测与真实工程质量存在明显差距。这一发现对AI辅助软件工程评估标准提出了重要质疑。
2026年3月12号 9:35
170.5k
Suno 压力大了!腾讯联手清华发布 SongGeneration 2,音素错误率低至 8.55%
腾讯与清华大学联合推出AI音乐模型SongGeneration2,在技术架构和音乐质量上实现重大突破,显著超越现有开源模型,甚至媲美顶级商业产品,有效解决了AI音乐的“塑料感”问题。
2026年3月10号 9:55
189.3k
清华大学发布首个系统性《人工智能教育应用指导原则》:严防“AI 学术依赖”
清华大学发布首份AI教育应用指导原则,系统规范校园AI使用,覆盖教学、科研等核心场景。文件分总则、教学、学位论文三部分,强调“积极而审慎”立场,旨在全局引导AI合理应用。
2025年11月27号 9:11
176.1k
清华大学发布 AI 应用指导原则:禁止将 AI 生成内容用作学业成果
清华大学发布《人工智能教育应用指导原则》,系统规范校园AI使用,涵盖教学、学术研究等核心场景。内容分为总则、教学篇、学位论文及实践成果篇三部分,强调积极引导与分层管理,旨在促进AI在教育领域的合理应用。
2025年11月27号 8:50
190.1k
清华新发现:AI大模型不止看“块头”,更要重视密度
清华大学在《自然・机器智能》发表研究,提出“能力密度”新概念,挑战传统AI评估标准。研究强调不应仅关注模型参数数量,而应重视每个参数的智能水平,质疑“模型越大能力越强”的规模法则。
2025年11月24号 9:39
159.2k
