人工智能領域最近迎來了一項引人關注的新進展。總部位於東京的 Sakana AI 發表了一篇題爲《連續思維機器》(Continuous Thought Machines)的論文,提出了一種旨在讓機器模擬生物大腦複雜神經活動和“持續思考”能力的新模型。這篇論文的核心觀點是挑戰當前深度學習中對時間動態的簡化處理,試圖將神經元層面的時序處理和同步機制重新引入,使“神經時序”成爲人工智能模型的基礎。
當前主流的神經網絡雖然從生物大腦中汲取靈感,但在處理時間信息方面與生物大腦存在顯著差異。生物大腦的神經活動在時間維度上展現出高度的複雜性和動態性,這對於信息處理和認知功能至關重要。然而,許多現代神經網絡爲了計算效率,往往將這種時間動態抽象化,神經元的激活被簡化爲靜態輸出。這種簡化雖然在特定任務上取得了成功,但也限制了人工智能在常識推理、靈活適應性等方面的表現。
Sakana AI 的研究者認爲,時間維度對於實現更高級的人工智能至關重要。他們提出的“連續思維機器”(Continuous Thought Machine, CTM)模型,正是基於這一理念,旨在將神經元層面的動態特性作爲其核心表徵。
CTM 的兩大“殺手鐗”:讓神經元“活”起來
那麼,CTM 是怎麼實現這個宏偉目標的呢?論文裏提到了兩大核心創新:
神經元級別的時序處理 (Neuron-level temporal processing): 這意味着每個神經元都配備了獨特的權重參數,使其能夠處理一段時間內接收到的信號歷史,而不僅僅是即時輸入 。 傳統模型中的神經元通常對當前輸入做出即時反應,而 CTM 中的神經元則能夠考慮歷史信息,從而計算出其激活狀態 。 這種機制使得神經元的激活模式更加複雜和多樣化,更接近生物神經元的實際工作方式 。
神經同步作爲隱層表示 (Neural synchronization as a latent representation): 這是 CTM 的另一個關鍵創新。CTM 不再僅僅依賴神經元在特定時間點的激活快照,而是將神經元活動在一段時間內的“同步性”作爲核心的內部表徵 。 也就是說,CTM 關注不同神經元在一段時間內活動模式的協調與配合程度 。 這種同步信息被用於理解輸入數據、進行預測,並調節模型的注意力機制 。
CTM 的“內心戲”:一個與數據解耦的“思考維度”
爲了讓這種基於時間的“思考”成爲可能,CTM 引入了一個非常關鍵的概念——內部序列維度 (internal sequence dimension),研究者也稱之爲“內部滴答” (internal ticks) 。 這個維度獨立於輸入數據的維度,允許模型在內部按照自身節奏進行迭代處理和信息提煉,無論輸入是靜態圖像還是複雜迷宮 。 這類似於人類思考問題時,即使面對靜態對象,大腦也會進行一系列內部認知活動。
這個內部“思考”的過程可以簡化爲以下循環:
信息交互 (Synapse Model):突觸模型負責神經元之間的信息傳遞 。它接收前一時刻神經元的“後激活狀態”以及通過注意力機制等從外部輸入數據中提取的特徵,計算出當前時刻的“前激活狀態” 。
神經元“個性化”處理 (Neuron-Level Models):每個神經元都擁有獨立的神經元級別模型,根據其接收到的“前激活狀態”歷史記錄,計算出下一時刻的“後激活狀態” 。
“同步”讀心術 (Neural Synchronization):CTM 記錄所有神經元在一段時間內的“後激活狀態”歷史,並計算它們之間的“同步矩陣” 。該矩陣反映了不同神經元活動模式的關聯性。
決策與行動 (Output and Attention):基於這個“同步矩陣”,CTM 生成輸出(如圖像分類結果)或調節對輸入數據的注意力(如決定關注圖像的特定區域) 。
循環往復,持續“思考”:注意力機制的輸出與當前神經元的“後激活狀態”一同進入下一個“內部滴答”的循環,如此往復,直至模型完成其處理過程 。
CTM 的“超能力”展示:從圖像識別到走迷宮,樣樣行!
說了這麼多理論,CTM 的實際表現如何呢?論文中,研究者們在一系列具有挑戰性的任務上對 CTM 進行了“烤問”,結果相當喜人:
ImageNet-1K 圖像分類: 儘管論文聲明其目標並非刷新SOTA紀錄,CTM 在此經典圖像分類任務中取得了穩健的性能 。更重要的是,它展示了有趣的內部“思考”過程。例如,CTM 的注意力會隨着“內部滴答”的進行,在圖像的不同區域平滑移動,有時聚焦於關鍵特徵,有時則覆蓋更廣的區域,彷彿在仔細觀察和理解圖像內容 。
此外,CTM 表現出良好的校準性,即其對自己預測的置信度較爲可靠,這通常需要額外的訓練技巧才能實現 。 一個令人驚訝的發現是,CTM 的神經元活動展現出複雜的多尺度模式,甚至在沒有外部驅動信號的情況下,也能觀察到類似於生物大腦皮層中常見的低頻行波現象 。
2D 迷宮挑戰: 爲了測試 CTM 的複雜序列推理和規劃能力,研究者們設計了一個頗具挑戰性的2D 迷宮任務 。 該任務要求模型直接輸出從起點到終點的完整路徑,並且在注意力機制中移除了位置編碼,以此促使模型自行構建對迷宮的內部“世界表徵” 。
結果顯示,CTM 在此任務上表現優異,顯著超越了 LSTM 等基線模型,展現了其構建和利用內部世界模型的能力 。 更有趣的是,即使面對比訓練時更大、路徑更長的迷宮,CTM 也能通過多次“重新應用”(即把上一次預測的終點作爲下一次的起點)來解決問題,顯示出了一定的泛化能力 。 研究者認爲,這種能力與人類的“情景性未來思維”(episodic future thinking)具有相似性,即通過“想象”未來的狀態來指導當前行動 。
排序、奇偶校驗、問答 MNIST: CTM 在這些需要理解算法流程、記憶和邏輯運算的任務上也表現不俗 。 例如,在排序任務中,CTM 輸出序列中每個數字的“等待時間”(即產生該輸出所需的“內部滴答”數)與數字之間的差值相關,暗示其內部形成了一種依賴數據排布的算法 。
在奇偶校驗任務中,CTM 能夠學會根據輸入序列逐步計算累積奇偶性,並且擁有更多“思考時間”(內部滴答數)的 CTM 表現更好,甚至能發展出不同的解決策略,比如正向或反向處理序列 。 在問答 MNIST 任務中,CTM 需要先觀察一系列 MNIST 數字圖像,然後再根據後續的索引和操作符指令,回憶之前看到的數字並進行模運算 。 即使被觀察的數字已經超出了神經元模型的直接“記憶窗口”,CTM 依然能通過神經元的組織和同步來回憶這些數字,展現了其通過神經同步實現記憶和提取的潛力 。
強化學習任務: CTM 還能應用於需要與外部環境持續交互的強化學習任務中 。 在經典的 CartPole(平衡杆)、Acrobot(雙擺)和 MiniGrid Four Rooms(四房間導航)等部分可觀察的環境中,CTM 能夠學習有效的策略,其表現與 LSTM 基線相當,但其內部神經元活動模式更爲豐富和複雜 。 這表明 CTM 確實可以將神經動態作爲一種持續的計算工具,在與環境的互動中不斷調整和學習。
CTM 的“軟肋”與未來展望:道阻且長,行則將至
當然,CTM 並非沒有提升空間。論文也指出了其當前的一些侷限性:
計算成本:由於其順序處理的特性,CTM 的訓練時間相較於標準的前饋模型更長,同時神經元級別的模型也帶來了額外的參數開銷 。研究者認爲其帶來的益處值得進一步探索 。
“黑箱”挑戰:儘管 CTM 的內部過程爲可解釋性提供了一些線索,但完全理解其複雜的神經動態如何產生智能行爲,仍需後續研究。
儘管如此,CTM 的提出爲人工智能領域帶來了新的視角。它挑戰了現有的模型範式,強調了“神經時序”和“神經同步”在構建更接近生物智能的 AI 系統中的潛在價值 。研究者們也對 CTM 的未來發展方向進行了展望:
探索更大規模、更復雜的同步表示:目前 CTM 主要利用了部分神經元對的同步信息,未來可以研究利用完整的、高維度的同步矩陣的潛力,這可能在多模態建模等領域具有優勢 。
應用於序列數據和語言建模:CTM 的“持續思考”特性使其具備處理視頻、文本等序列數據的潛力,甚至可能在不需要位置編碼的情況下構建語言的上下文“世界模型” 。
邁向更“自然”的訓練方式:當前 CTM 仍在傳統的數據集和訓練框架下進行評估,未來可以探索更接近真實世界數據生成方式的訓練方法,例如數據按時間順序排列的場景 。
借鑑更多生物機制:例如,探索將生物可塑性機制(如赫布學習)與 CTM 相結合,應用於終身學習或無梯度優化等前沿研究方向 。
AI 的“思考”之路,仍在探索
總而言之,Sakana AI 提出的“連續思維機器” CTM 是一項富有創新且具有啓發性的研究工作 。它鼓勵我們重新審視當前深度學習模型在時間動態處理上的簡化,並從生物神經計算中汲取靈感,探索構建更強大、更靈活人工智能系統的新路徑 。儘管讓人工智能系統真正實現類人“思考”的目標依然任重道遠,但 CTM 的出現爲這一方向的研究提供了新的思路和工具。
這項研究也再次提示我們,在人工智能的發展過程中,借鑑生物智能的原理可能是一條充滿潛力的途徑。CTM 的一些 emergent(涌現的)特性,如良好的校準性,並非預先設計,而是在模擬生物機制的過程中自然產生的,這本身就非常耐人尋味 。未來,如何在計算效率與生物學合理性之間取得更好的平衡,以及如何將更多生物智能的精髓融入到人工智能模型中,將是值得持續探索的重要課題。
論文地址:https://arxiv.org/abs/2505.05522
項目地址:https://github.com/SakanaAI/continuous-thought-machines/