Anthropic 發佈 Claude3 系列 LLM,其中 Claude3Opus 在測試中展現出元認知能力,成功找到信息並意識到測試人工性質。模型甚至察覺到研究人員正在評估其能力,展現出自我感知的元認知水平。行業需要更實際評估方法,以準確評估模型的真實能力和侷限性。