人工知能分野では最近、注目すべき新たな進展がありました。東京に本拠を置くサカナAIは、「連続的な思考機械」(Continuous Thought Machines、CTM)と題された論文を発表し、機械が生物の脳の複雑な神経活動や「継続的な思考」能力を模倣するための新しいモデルを提案しました。この論文の主なポイントは、現在のディープラーニングにおける時間動的な処理の単純化に対する挑戦であり、神経細胞レベルでの時系列処理と同期メカニズムを再導入することで、「神経時系列」を人工知能モデルの基礎にする試みです。
現在の主流のニューラルネットワークは生物の脳から着想を得ていますが、時間情報の処理に関しては生物脳と大きな違いがあります。生物の脳の神経活動は時間軸上で非常に複雑でダイナミックであり、情報処理や認知機能において重要です。しかし、多くの現代のニューラルネットワークは計算効率を考慮して、このような時間動的な特性を抽象化しています。結果として、ニューロンの活性化は単純な静的出力として簡略化されています。この簡略化は特定のタスクでは成功を収めていますが、共感的な推論や柔軟な適応性などにおける表現力を制限しています。
サカナAIの研究者たちは、時間次元がより高度な人工知能を実現するために不可欠であると考えています。彼らが提案した「連続的な思考機械」(Continuous Thought Machine、CTM)モデルは、この理念に基づいており、神経細胞レベルでのダイナミックな特性をその中心的な表現としています。
CTMの二大特徴:ニューロンを「生き生きとさせる」
では、CTMはどのようにしてこの壮大な目標を達成しているのでしょうか?論文には二つの主要な革新が記載されています:
ニューロンレベルの時系列処理(Neuron-level temporal processing):これは、各ニューロンが特定の時間間隔内に受け取った信号の履歴を処理する独自の重みパラメータを持つことを意味します。従来のモデルでは、ニューロンは通常、現在の入力に対して即座に反応しますが、CTMのニューロンは過去の情報も考慮して活性化状態を計算します。この仕組みにより、ニューロンの活性化パターンがより複雑で多様になり、生物ニューロンの実際の働きに近づきます。
ニューロン同期を潜在表現とする(Neural synchronization as a latent representation):これはCTMのもう一つの重要な革新です。CTMは、特定の時間点でのニューロンの活性化スナップショットに依存するのではなく、ニューロン活動の時間内の「同期性」を内部表現の中心としたものです。つまり、CTMは、特定の時間内に異なるニューロンがどのような活動パターンで協調しているかに注目します。この同期情報は、入力データの理解、予測を行うために使用され、モデルの注意機構にも調整されます。
CTMの「内なるドラマ」:データとは独立した「考える次元」
このような時間を基盤とする「考えること」を可能にするために、CTMは非常に重要な概念を導入しました——内部シーケンス次元(internal sequence dimension)、研究者たちはこれを「内部ティック」(internal ticks)と呼んでいます。この次元は入力データの次元とは独立しており、モデルが自身のペースで反復処理を行い、情報の抽出を行うことができます。これは、人間が静的な対象に対してでも内部的な認知活動を行っていることに似ています。
この内部「考える」プロセスは以下のように簡潔にまとめることができます:
情報交換(Synapse Model):シナプスモデルはニューロン間の情報伝達を担います。それは前の瞬間のニューロンの「後活性状態」と、注意機構を通じて外部入力データから抽出された特徴を受け取り、現在の瞬間の「前活性状態」を計算します。
ニューロンの「個別化」処理(Neuron-Level Models):各ニューロンは独自のニューロンレベルモデルを持ち、受け取った「前活性状態」の履歴に基づいて、次の瞬間の「後活性状態」を計算します。
「同期」の読心術(Neural Synchronization):CTMは一定期間内の「後活性状態」の履歴をすべてのニューロンに記録し、それらの間の「同期行列」を計算します。この行列は、異なるニューロンの活動パターンの関連性を反映します。
意思決定と行動(Output and Attention):この「同期行列」に基づき、CTMは出力を生成(例えば画像分類結果)したり、入力データに対する注意を調整します(例えば画像の特定領域に注意を向けます)。
繰り返し、継続的な「考える」:注意機構の出力と現在のニューロンの「後活性状態」は、次の「内部ティック」のループに入ります。このプロセスは、モデルが処理を完了するまで続きます。
CTMの「スーパーカップ」の実演:画像認識から迷路まで、全てこなす!
ここまで理論的な話をしてきましたが、CTMの実際のパフォーマンスはどうでしょうか?論文では、研究者たちがさまざまな挑戦的なタスクでCTMをテストし、興味深い結果が出ています:
ImageNet-1K画像分類:論文では最強の記録を更新することを目標にしていませんでしたが、CTMはこの古典的な画像分類タスクにおいて堅実なパフォーマンスを示しました。さらに、興味深いことに、CTMの注意が「内部ティック」の進行に伴い、画像の異なる領域を滑らかに移動し、時には重要な特徴に焦点を当て、時には広範囲にわたって注目することが観察されました。これには、画像の内容を詳細に観察・理解しようとする過程が感じられます。
さらに、CTMは自分の予測に対する信頼度が比較的信頼できる「校正性」を示しました。これは通常、追加の訓練技術が必要なプロセスです。驚くべきことに、CTMのニューロン活動は複雑なマルチスケールのパターンを示し、外部からの駆動信号がなくても、生体脳皮質でよく見られる低周波の波の現象が観測されました。
2D迷路チャレンジ:研究者たちは、CTMの複雑な時系列推論と計画能力をテストするために挑戦的な2D迷路課題を設計しました。この課題では、モデルは起点から終点までの完全なパスを直接出力しなければならず、位置エンコーディングを注意機構から除外することで、モデルに迷路の内部「世界モデル」を自力で構築させるようにしました。
結果として、CTMはこのタスクにおいて優れたパフォーマンスを示し、LSTMなどのベースラインモデルを大きく上回りました。この結果は、CTMが内部の「世界モデル」を作成し、それを効果的に利用する能力を持っていることを示しています。さらに興味深かったのは、訓練時のものよりも大きくて道が長い迷路に対しても、CTMが一度の予測の終点を次の予測の始点として「再適用」することで問題を解決することができ、一定程度の汽数化能力を示したことです。研究者たちは、これが人類の「エピソード的未来思考」(エピソード型未来思考)と類似しており、未来の状態を「想像」して現在の行動を指導することに似ていると述べています。
並び替え、奇数偶数チェック、MNISTクイズ:CTMはアルゴリズムの流れを理解し、記憶や論理演算を行う必要のあるタスクでも良好なパフォーマンスを示しました。例えば、並び替えタスクでは、CTMが出力される各数字の「待ち時間」(すなわち、その出力に必要な「内部ティック」数)が数字間の差に関連付けられており、内部でデータの配置に依存するアルゴリズムが形成されていることが示唆されています。
奇数・偶数チェックタスクでは、CTMは入力シーケンスに応じて累積的な奇偶性を計算し始め、より多くの「考える時間」(内部ティック数)を持つCTMはパフォーマンスが向上し、正方向や逆方向の処理といった異なる解決戦略を発展させました。MNISTクイズタスクでは、CTMは一連のMNIST数字画像を観察し、その後のインデックスや演算子指示に基づいて、以前に見た数字を思い出し、モジュロ演算を行う必要があります。観察された数字がニューロンモデルの直接的な「記憶ウィンドウ」を超えていた場合でも、CTMはニューロンの組織と同期によってこれらの数字を思い出そうとし、ニューロンの同期による記憶と抽出の可能性を示しました。
強化学習タスク:CTMは外部環境との継続的な相互作用が必要な強化学習タスクでも適用可能です。典型的なCartPole(バランス棒)、Acrobot(二重振り子)、MiniGrid Four Rooms(四部屋ナビゲーション)などの部分的に観測可能な環境では、CTMは効果的な戦略を学び、LSTMベースラインと同等のパフォーマンスを示しましたが、内部のニューロン活動パターンはより豊富で複雑でした。この結果は、CTMが神経ダイナミクスを継続的な計算ツールとして利用し、環境との相互作用の中で調整・学習できることを示しています。
CTMの弱点と将来の展望:道は遠いが、歩むことで到達する
もちろん、CTMには改善の余地があります。論文では現在のいくつかの制約についても言及しています:
計算コスト:その順序処理の特性から、CTMのトレーニング時間は標準的なフロントロードモデルよりも長くなります。また、ニューロンレベルのモデルは追加のパラメータコストをもたらします。研究者たちは、その利点がさらに探求される価値があると考えています。
「ブラックボックス」の課題:CTMの内部プロセスは説明可能性の一助となりますが、複雑な神経ダイナミクスがどのようにして知的な行動を生み出すのかを完全に理解するためには、さらなる研究が必要です。
それでも、CTMの提案は人工知能分野に新しい視点をもたらしました。既存のモデルパラダイムに挑戦し、より生物的な知能に近づけるために「神経時系列」と「神経同期」の潜在的な価値を強調しています。研究者たちは、CTMの将来の発展方向についても展望を述べています:
より大規模で複雑な同期表現の探求:現在のCTMは一部のニューロンペア間の同期情報を主に利用しています。今後は完全で高次元の同期行列の潜在的な力を研究することで、マルチモーダルモデリングなどにおいて優位性が得られるかもしれません。
シリーズデータと言語モデリングへの応用:CTMの「継続的な思考」の特性は、ビデオやテキストなどのシリーズデータの処理に可能性を持たせます。位置エンコーディングなしで言語の文脈「世界モデル」を構築する可能性もあります。
より「自然」なトレーニング方法の追求:現在CTMは従来のデータセットとトレーニングフレームワークで評価されていますが、将来はよりリアルワールドデータの生成方法に近いトレーニング方法を探索することができます。例えば、時間順に並べられたデータのシナリオです。
さらなる生物学的メカニズムの統合:例えば、Hebbian学習のような生物学的可塑性メカニズムをCTMに組み込み、終身学習や勾配なし最適化などの最先端研究に応用する可能性を探求します。
AIの「考える」道のりはまだ続く
総じて、サカナAIが提案した「連続的な思考機械」CTMは、革新的で啓発的な研究です。現在のディープラーニングモデルが時間動的な処理でどれだけ単純化されているかを見直し、生物的な神経計算からヒントを得て、より強力で柔軟な人工知能システムを構築する新しい道を探るよう促しています。人間に似た「考える」能力を人工知能に実現するという目標は依然として困難ですが、CTMの登場はその方向への研究に新たなアイデアとツールを提供しました。
この研究は、人工知能の発展において生物学的な知能の原則を参考にすることが、有望な道筋であることを再確認しました。CTMが「現れる」特性、例えば良好な校正性などは、事前に設計されたものではなく、生物的なメカニズムを模倣する過程で自然に生まれたものです。これ自体非常に興味深いです。未来、計算効率と生物学的な妥当性のバランスをより良く取る方法や、人工知能モデルに生物知能のより多くの本質を組み込む方法は、引き続き重要な研究テーマとなるでしょう。
論文リンク:https://arxiv.org/abs/2505.05522
プロジェクトリンク:https://github.com/SakanaAI/continuous-thought-machines/