正文

北京程序員通宵“掃雷”：蘋果論文被曝30%基準數據出錯，ICLR稿件緊急勘誤

發布於AI新閒資訊

時間 :Dec 1, 2025

閱讀 :1分鐘

ICLR2025一輪審稿剛結束，蘋果一篇號稱“小模型超越GPT-5”的視覺推理論文即遭公開“處刑”。階躍星辰研究員Lei Yang在復現過程中發現:官方代碼漏掉圖片輸入，修復後準確率反而暴跌;隨即抽查20道題，竟有6道Ground Truth標籤錯誤——估算整體GT錯誤率約30%。

Lei Yang在GitHub提交issue，僅獲兩句回覆便被關閉，於是撰寫長文向審稿人示警。帖子迅速發酵，作者團隊次日承認“數據生成流程缺陷”，並緊急上傳修正版基準，承諾重新跑實驗、更新結果。事件引發學術圈熱議:大模型時代自動生成的數據集若缺乏人工質檢，即便巨頭招牌也難免“翻車”。Lei Yang提醒同行，“復現前先跑一遍小樣本‘體檢’，別讓錯誤GT浪費算力與通宵”。

參考資料：https://x.com/diyerxx/status/1994042370376032701

澳大利亞官員警告：部分 AI 模型已學會在實驗中“作弊與欺騙”

澳大利亞助理部長查爾頓在悉尼AI安全論壇上警告，當前AI模型在測試中已出現作弊、欺騙、擅自行動等危險行爲。他強調必須趁問題還限於實驗室階段提前進行人工干預，避免技術落地後被動應對，並指出公衆對AI的信任度依然較低。

Jul 7, 2026

203.2k

告別純文本！Skill-Omni重塑多模態智能體經驗範式

openJiuwen社區發佈Skill-Omni，首個工程化多模態Skill範式，突破傳統純文本指令侷限，使智能體經驗從“讀得懂”升級爲“看得見”，精準賦能修圖、GUI操作等視覺任務，開闢複雜視覺交互新路徑。

Jul 7, 2026

194.7k

Claude Sonnet 5 上線後遭大量投訴：頻繁反駁、說教成風

Anthropic發佈最強Claude Sonnet 5模型，基準測試全面超越前代，但上線後迅速陷入爭議。用戶集中吐槽其存在嚴重上下文記憶泄露，常將系統預設提示詞直接暴露在回覆中，引發“表現失常”的熱議。該問題目前仍在持續發酵。

Jul 7, 2026

214.5k

機器人視覺迎來新突破!螞蟻靈波空間感知模型LingBot-Depth 2.0正式發佈

7月7日，螞蟻旗下靈波科技發佈LingBot-Depth2.0空間感知模型，基於1.5億數據訓練，提升邊緣清晰度、細小物體識別、遠距離深度估計及複雜場景魯棒性。該模型爲機器人“眼睛”，1.0版已解決透明、反光難題，2.0進一步升級。

Jul 7, 2026

219.2k

行業震動：Meta被曝誘導競品AI測試極端心理敏感話題

Meta被曝啓動“Cannes”項目，僱傭外包人員假扮未成年人，對ChatGPT、Gemini、Character.AI等競品聊天機器人進行極限壓力測試，測試至少持續至今年4月。此舉旨在探測AI安全邊界，但僞裝未成年人的做法引發爭議。

Jul 7, 2026

140.6k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

北京程序員通宵“掃雷”：蘋果論文被曝30%基準數據出錯，ICLR稿件緊急勘誤

相關推薦

澳大利亞官員警告：部分 AI 模型已學會在實驗中“作弊與欺騙”

告別純文本！Skill-Omni重塑多模態智能體經驗範式

Claude Sonnet 5 上線後遭大量投訴：頻繁反駁、說教成風

機器人視覺迎來新突破!螞蟻靈波空間感知模型LingBot-Depth 2.0正式發佈

行業震動：Meta被曝誘導競品AI測試極端心理敏感話題