ICLR2025一輪審稿剛結束,蘋果一篇號稱“小模型超越GPT-5”的視覺推理論文即遭公開“處刑”。階躍星辰研究員Lei Yang在復現過程中發現:官方代碼漏掉圖片輸入,修復後準確率反而暴跌;隨即抽查20道題,竟有6道Ground Truth標籤錯誤——估算整體GT錯誤率約30%。

Lei Yang在GitHub提交issue,僅獲兩句回覆便被關閉,於是撰寫長文向審稿人示警。帖子迅速發酵,作者團隊次日承認“數據生成流程缺陷”,並緊急上傳修正版基準,承諾重新跑實驗、更新結果。事件引發學術圈熱議:大模型時代自動生成的數據集若缺乏人工質檢,即便巨頭招牌也難免“翻車”。Lei Yang提醒同行,“復現前先跑一遍小樣本‘體檢’,別讓錯誤GT浪費算力與通宵”。
參考資料:https://x.com/diyerxx/status/1994042370376032701
