相關推薦
基準測試不等於真實能力?研究稱AI代碼“通過率”或被高估最高達7倍
研究指出,SWE-bench Verified基準測試可能高估AI編程能力。該測試中被判“通過”的AI代碼方案,約一半在實際項目審覈中會被拒絕,顯示自動化評測與真實工程質量存在明顯差距。這一發現對AI輔助軟件工程評估標準提出了重要質疑。
Mar 12, 2026
151.6k
多款 AI 機器人安全護欄遭挑戰:調研顯示僅 Claude 系統性拒絕協助暴力策劃
CNN與反數字仇恨中心聯合測試顯示,主流AI聊天機器人在模擬青少年暴力傾向情境下,安全機制普遍薄弱,難以有效防範風險。
Mar 12, 2026
127.4k
a16z 發佈全球 AI 消費級應用百強榜:ChatGPT 位居榜首
a16z報告顯示,全球生成式AI應用市場快速擴張,ChatGPT保持統治地位,其網頁和移動端流量遠超競爭對手Gemini,周活躍用戶達5億,全球超10%人口每週使用。
Mar 11, 2026
178.1k
a16z發佈全球AI應用百強榜:DeepSeek躋身前四,中國陣營集體崛起
a16z發佈生成式AI應用榜單顯示,ChatGPT仍居榜首,但中國AI應用正快速崛起。DeepSeek位列全球第四,成爲排名最高的中國應用,Kimi、阿里千問等也表現突出,顯示中國AI在全球市場競爭力增強。
Mar 11, 2026
185.5k
OpenAI 戰略轉型:ChatGPT 擬接入視頻生成工具 Sora
OpenAI計劃將視頻生成器Sora整合進ChatGPT,以拓展多模態AI佈局,強化視頻創作能力,推動用戶增長。目前ChatGPT周活約9.2億,距10億目標尚有差距。Sora的接入有望吸引短視頻和視覺創作用戶,應對谷歌Veo和Meta的競爭。
Mar 11, 2026
166.7k
