三星 SAIL 蒙特利爾實驗室的研究人員近日推出了一種名爲**“微型遞歸模型”(TRM)的新型 AI 架構。這款模型參數僅有 700萬個,遠小於動輒數十億參數的最小型語言模型(LLM),卻在數獨和 ARC-AGI 測試**等複雜的結構化推理任務中,表現出驚人的效率和卓越的性能,成功超越了包括 Gemini2.5Pro 和 Claude3.7 在內的多個大型語言模型。

遞歸推理核心機制:緊密重複的校正循環
根據研究報告《少即是多:基於微型網絡的遞歸推理》,TRM 在ARC-AGI-1上的準確率達到45%,在ARC-AGI-2上的準確率達到8% ,其表現優於規模更大的模型,包括 o3-mini-high(ARC-AGI-2上的準確率3.0%)、Gemini2.5Pro(4.9%)、DeepSeek R1(1.3%)和 Claude3.7(0.7%)。作者表示,TRM 僅使用不到大多數大型模型所用參數的0.01% 即可實現這一目標。Grok-4-thinking(16.0%)和 Grok-4-Heavy(29.4%)等更專業的系統仍然處於領先地位。
作者強調,TRM 僅使用了不到大多數大型模型所用參數的 0.01%,便在 ARC-AGI-1和 ARC-AGI-2上分別取得了 45% 和 8% 的準確率,優於多種更大規模的通用模型。在其他基準測試中,TRM 同樣表現出色,將 Sudoku-Extreme 的準確率從55.0% 提升至 87.4%,Maze-Hard 的準確率從74.5% 提升至 85.3%。
研究意義與侷限性
TRM 的研究結果證明了小型、有針對性的模型在處理狹窄、結構化推理任務時的巨大潛力,它能夠通過逐步改進和數據增強實現極高的效率。研究還表明,針對特定數據集進行架構選擇(如在固定大小網格中使用簡單的 MLP 而非注意力機制)是成功的關鍵。
然而,TRM 並非通用 LLM 的替代品。它運行在定義明確的網格問題中,並且不是一個生成系統,因此不適用於開放式、基於文本或多模態的通用任務。
相反,TRM 代表了推理任務中一個極具前景的構建模塊,展示了計算效率與複雜推理能力平衡的新方向,並可能在未來拓展其應用領域。獨立複製和測試仍在進行中。
TRM 的出現強調了在 AI 領域中,架構創新與算法優化可能比單純追求模型規模更重要。您認爲這種“小而精”的 AI 模型未來最可能率先在哪些垂直領域實現大規模應用?
