随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。
大模型评测乱象调查:参数规模不代表一切

随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。
在全球生态环境保护日益受到重视的背景下,NVIDIA 与多个国际组织合作,积极探索人工智能在野生动物保护中的应用。根据联合国的数据显示,超过100万种物种面临灭绝的风险,而利用 AI 技术的保护措施,无疑为维持生态系统和支持生物多样性提供了新的解决方案。美国西雅图的非营利性 AI 研究机构 Ai2推出了 EarthRanger 软件平台,旨在帮助保护区的管理人员和生态学家做出更明智的野生动物保护决策。该平台的核心是一个基于机器学习的模型,能够通过云端的 NVIDIA Hopper GPU 进行训练,准
3月12日,科技圈再次被中国AI新星Manus点燃热情。据ManusAI公司最新披露,自3月6日产品发布以来,仅7天时间,全球已有200万人加入其使用等候名单。这款由中国90后团队Monica打造的全球首款通用型AI Agent,以其超越传统AI助手的强大功能引发热议。Manus不仅能提供建议或回答问题,还能直接交付完整任务成果,被誉为“心智与手的结合”。其官网数据显示,邀请码在网络上被炒至5万元人民币,凸显用户对其的狂热追捧。创始人肖弘在接受采访时表示:“我们对如此惊人的需求感到兴奋,正加班
硅基流动官方宣布,由字节跳动推出的首个 AI 原生集成开发环境(AI IDE)——Trae接入硅基流动(SiliconCloud)平台,旨在为开发者提供更高效的编程体验。Trae 现在集成了硅基流动的多款模型,用户只需通过 API 密钥即可接入 DeepSeek-R1、V3、QWQ-32B、Qwen2.5-Coder 等多种编码模型。这种灵活的选择满足了开发者对不同模型的使用需求。此外,硅基流动平台还提供了免费的 DeepSeek-R1蒸馏版模型及其他多种 API 服务,助力开发者实现 “Token 自由”,使他们的开发过程更加高效。接入硅基流动平台模型的步
理想汽车宣布其人工智能助手理想同学网页版正式上线,用户现在可以在电脑端使用这一智能助手。这一举措标志着理想汽车正进一步拓展其智能服务生态,实现跨场景的智能服务协同。
AI工具赛道再掀惊涛骇浪!谷歌AI Studio今日投下一枚重磅炸弹,其最新升级的功能在X平台瞬间引爆科技圈。用户惊呼,谷歌AI Studio 现在竟然可以直接“啃食”YouTube视频链接,无需下载上传,就能瞬间理解视频内容!更令人瞠目结舌的是,Gemini2.0Flash Experimental 模型(以下简称 Gemini2.0Flash exp) 悄然解锁了自然图片生成神技,而且还能在多张图片中让角色“灵魂附体”般保持一致! 这波“官方亲自下场做应用”的王炸级更新,被业内人士视为“最为致命”的降维打击,预示着一大批仰仗“套壳”
谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)在一场发布会上宣布,谷歌开源了最新的多模态大模型 Gemma-3,该模型以低成本、高性能为特点,备受关注。Gemma-3提供了四种不同参数规模的选项,分别为10亿、40亿、120亿和270亿参数。令人惊讶的是,最大参数的270亿模型只需一张 H100显卡即可高效推理,而同类模型往往需要十倍的算力,这使 Gemma-3成为目前算力要求最低的高性能模型之一。根据最新的测试数据,Gemma-3在各类对话模型的评比中表现不俗,仅次于知名的 DeepSeek 模型,超越了 OpenAI 的 o3-m