ICLR2025の1ラウンドの査読が終わりました。アップルが「小規模モデルがGPT-5を上回る」という視覚的推論に関する論文が公開され、すぐに「処刑」されました。ステップスターリサーチャーのLei Yangは再現过程中で、公式コードに画像入力が欠けていたことを発見しました。修正後、正確率が急落したのです。その後、20問の問題をランダムにチェックしたところ、6問のGround Truth(真値)ラベルに誤りがあることが判明しました。全体のGT誤り率は約30%と推定されます。

Lei YangはGitHubにissueを提出しましたが、わずか2つの返信を得た後、そのissueは閉じられました。そのため、彼は長文を投稿し、査読者に警告を送りました。この投稿は急速に広まり、著者のチームは翌日に「データ生成プロセスの欠陥」を認めた上で、修正版のベンチマークを緊急アップロードし、実験を再実行して結果を更新する約束をしました。この出来事は学術界で大きな議論を巻き起こしました。「大規模モデル時代において、自動生成されたデータセットが人間の品質検査を受けていない場合、巨頭企業でも間違いなく『トラブル』が起きる」とのことです。Lei Yangは研究者に注意喚起し、「再現する前に小さなサンプルで『健康診断』を行うこと。誤ったGTによって計算リソースや時間を無駄にしないようにしましょう」と述べています。
参考資料:https://x.com/diyerxx/status/1994042370376032701
