相關推薦
騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench
騰訊混元團隊與中國人民大學等機構聯合開源了PlanningBench,這是一個用於評測和訓練大語言模型規劃能力的框架。它系統化地抽象了任務、約束和難度,覆蓋30多種規劃任務類型,支持數據生成與驗證,旨在評估模型的實際規劃能力。
Jun 5, 2026
246.4k
GPT 5.5 稱霸 AI 漏洞挑戰,DeepSeek 斬獲“性價比之王”
安全研究員Kasra Rahjerdi通過構建含漏洞的圖書評論應用,測試主流大語言模型的安全推理能力。他故意暴露谷歌移動端後端服務憑據,要求模型解包並識別以訪問數據庫。在每場2小時、預算10美元的嚴格條件下,評估了頂尖模型的表現。
Jun 4, 2026
230.5k
比亞迪首次證實自研人形機器人“堯舜禹”2026年將內部分署2萬臺
比亞迪執行副總裁李柯證實,公司正推進自研工業人形機器人項目“堯舜禹”,2022年立項,核心研發團隊超4000人,原型機已迭代至第七代,雙足行走速度1.5米/秒,額定負載50公斤,標誌着比亞迪開啓具身智能第二增長曲線。
Jun 4, 2026
282.8k
GPT-5. 5 拿下利用率冠軍,DeepSeek V4 Pro斬獲性價比之王!大模型網絡安全攻防實測報告出爐
大語言模型在網絡安全領域的推理能力正面臨嚴峻考驗。安全研究員Kasra Rahjerdi通過構建含有核心漏洞的圖書評論APK,對主流大模型進行模擬黑客攻擊測試,揭示其安全推理與漏洞利用的真實水平。測試限時2小時、單次預算10美元,直觀展現了各模型在複雜邏輯挑戰中的表現。
Jun 4, 2026
282.9k
聯合國警告:2030 年中心水電耗將翻,AI 不容忽
聯合國水、環境健康研究所最新報告指出,受人工智能(AI)激增影響,全球數據中心水消耗到2030年將翻倍。當前數據中心規模持續擴大,帶來巨大環境成本。去年全球數據中心電力耗達448太瓦時,已超過沙特阿拉伯全國用電量,其中AI算力耗電佔五分之一;水消耗達45萬億升,可滿足撒哈拉以南非洲超6億人用水需求。
Jun 4, 2026
187.3k
