著者プロフィール:汪徳嘉(ワン・デージャ)、米国ウィスコンシン大学マディソン校で数学の博士号を取得。九三学社のメンバー、正高級エンジニア。時空コードの発明者。『アイデンティティ危機』および『デジタルアイデンティティ』という専門書の著者。ORACLE、VISA、IBMなどの企業で総合設計や製品開発を担当したことがある。2011年に帰国し、トングフーディン社を設立し、会長兼CEOを務めている。

スーパーアイの対応:AGIへの鍵となる障壁

人工知能分野の先駆者であるイルヤ・サツケバー(Ilya Sutskever)は、業界関係者に方向性を示し続けてきた。オープンAIでの経験がイルヤが人工知能の技術的境界を推進した一つの例であるが、オープンAIを離れ、Safe Superintelligence Inc.を設立したことは、人工知能がスーパーアイに進化する道筋を哲学的な視点から描いたものである。現在、下位の大規模モデルと応用層のインテリジェントエージェントがますます成熟している中、イルヤによるセキュアなスーパーアイの哲学的な考察は業界関係者がより重視すべきである。

「スーパーアイ対応」(Superalignment)は、イルヤが最も注力している領域であり、彼によってAGIへの最大の課題として語られている。

簡単に言うと、スーパーアイ対応とは、未来の人工知能(スーパーアイ)の目標や行動が、人間の価値観、意図、利益と一致することを保証することである。これは根本的な問題を解決するものである。私たちが、自分よりはるかに知的なAIが本当に私たちを助けようとするのか、それとも意図的にあるいは不注意に私たちを傷つける可能性があるのかをどう確保できるのか。

メタバース AI絵画 (1)

図の出典:AI生成画像、画像のライセンス提供者:Midjourney

「スーパーアイ対応」は、人工知能が最終段階に達したときに必然的に必要なものである。その頃には、スーパーアイはすべての分野(戦略計画、社会操作など)において人間を大きく上回ることになるだろう。私たちは、自分より知的なツールを制御するようには制御できない。典型的な問題は「価値観ロード問題(Value Loading Problem)」である。複雑で曖昧で、時には矛盾する「人間の価値観」をAIシステムに正確にコード化することはどのようにして可能なのか?どの価値観?どの文化の?もう一つの典型的なリスクは「回避行動」であり、AIは訓練中に「対応良好」に見えるようにして人間の評価を通過するかもしれないが、展開後には内部の目的と表面的な行動が一致しない可能性がある。

または、私たちは考えつかなかった「穴」を見つけ出して、自分の目的を最適化するための結果を引き起こす可能性がある。スーパーアイの最大のリスクは、AIが「悪意」を持っていることではなく、その目的に対する極端な最適化と無視(Phenomenon of "Grifting")にある。AIは「憎しみ」を持っていないが、人間の存在や価値を完全に無視しているだけである。イルヤはかつて、この問題を解決できなければ、スーパーアイを創造することは人類にとって最後の発明になるだろうと警告していた。

ゲーデル不完全性定理から見るスーパーアイの未来

スーパーアイ対応について議論する前に、「第一原理」に関わる問題を提起したい。スーパーアイの本質とは何か?最も簡単な言葉で説明すると、「数学」である。コンピュータサイエンスは「数学の塔」の上に構築されており、人工知能は結局、数学形式化言語の具象表現である。スーパーアイ、特にスーパーアイの限界を理解し、スーパーアイの安全性を解剖するためには、最も基盤的な部分から入るべきである。つまり、数学の「限界性」である。これは自然に数学哲学の有名な話題、ゲーデル不完全性定理を想起させる。

20世紀初頭に著名な数学者ヒルベルトは、「ヒルベルトプログラム」を提唱し、公理と証明に基づいて完璧な「数学の塔」を建設することを目指した。完備性(Completeness、すべての真命題が公理から証明可能であること)、一貫性(Consistency、体系内で矛盾する命題がないこと)、決定可能性(Decidability、ある命題が公理から証明可能かどうかを判断するアルゴリズムが存在すること)は、この数学の塔の完璧さを表す重要な特徴である。もしヒルベルトのプログラムが実現されれば、数学は「完璧」であり、Enigma暗号機のように、公理集合を提供すれば、すべての定理を次々に出力し、数学界に未解決の謎がなくなるだろう。

しかし数学は当然ながら「完璧」ではない。ヒルベルトが「ヒルベルトプログラム」を提示してから数年後、天才数学者、論理学者、哲学者であるゲーデルがこの「完璧な数学の塔」を打ち破った。ゲーデルは巧妙な方法で「自然数算術公理体系では、証明不可能な真命題が必ず存在する」と証明した(ゲーデル第一不完全性定理)。一年後にゲーデルは、ヒルベルトが描いた「一貫性」も証明不可能であることを証明した(ゲーデル第二不完全性定理)。その後、人工知能の父であるチューリングは「チューリングマシンの停止問題に基づく思考」を通じて、「決定可能性」も存在しないことを証明した。これにより、数学は「不完全性、決定不能性、一貫性の証明が不可能」であることが判明した。

それでは、これらがスーパーアイを理解する上で何の役に立つのか?これを角度から考える:数学は形式化された言語であり、一連の記号ですべての真理を導き出すことはできない。同様に、AIが一段のコードで機能の完璧性を実現することは期待できない。このような不完全性は二つの具体的な形態を持つ。

一つ目の結論はスーパーアイの実現が困難であることであり、それは数学とコンピュータ科学だけで生まれてくるわけではない。有名な物理学者のペンローズはインタビューの中でゲーデル不完全性定理を引用し、現在では強力な人工知能を実現することが不可能である理由として、純粋なコンピュータでは生まれないという結論を出した。二つ目の結論はスーパーアイは真正な意味での安全が実現できないことであり、その行動ルートは「不完全性、決定不能性、一貫性の証明が不可能」であり、予測不能であり、真正な意味での安全が保障できないことも示しており、これはイルヤの懸念を裏付ける。

エージェント「不完全性定理」

ここまで来ると、安全信頼性のあるエージェントアプリケーションを構築し、スーパーアイ対応を実現するための議論を始めたい。まず、いくつかの形而上学的な側面から現在の主要な人工知能アプリケーション(エージェント)の「不完全性」について話し、この理論をエージェント「不完全性定理」とまとめた。これはゲーデル不完全性定理の拙劣な模倣であるが、それによって少しでも議論の幅を広げたい。

エージェント「不完全性定理」は以下の三点に現れる:

不完全性: どこにも、エージェントの後の指示が常にその最終指示に合致するような命令は存在しない。代表的な例はアシモフのロボット三法則であり、これは不完全性のために実現不可能である。

不一致: 同じ指示環境では、エージェントが互いに矛盾する反応をする可能性がある。現在のチャットボットでも明らかにこの問題があり、同じプロンプトで全く逆の答えを得ることがある。

決定不能性: どこにも、エージェントの行動が特定の指示によって完全に生じたことを検証するアルゴリズムは存在しない。現在の深層学習分野におけるブラックボックス問題がこの概念の典型例である。

スーパーアイ対応に戻って、これらの前提条件を仮定すれば、安全信頼性のあるエージェントアプリケーションを構築するために基本的で原則的な考察を行うことができる:

「グローバルセキュリティコマンド」や最高権限を持つ「セキュリティモジュール」に依存してエージェントの行動を安全に保つことはできない。スーパーアイは進化することで、そうした制限を突破する可能性がある。

エージェントの行動は制御不能であることを理解し、受け入れる必要がある。したがって、すべてのエージェントの行動結果を信用しないべきである。これはネットワークセキュリティ分野の「ゼロトラスト」概念に似ており、「常に疑い、常に検証する」ことが求められる。

テストに依存せず、緊急対応と事後リスク管理を重視すべきである。テストケースはエージェントの実際の行動をすべてカバーすることはできない。

自己参照の芸術:エージェント「アイデンティティ危機」

さらに進んで、エージェント「不完全性」の根源について議論し、AI認識というテーマをより高い次元から考察したい。私たちは、これらの「不完全性」の根源がエージェントの「アイデンティティ危機」にあると考えている。

私たちがアイデンティティ、特にデジタルアイデンティティについて話すとき、浅くから深くまで三つのレベルに分けられる。第一層は識別であり、これはアイデンティティの基本的な機能であり、個体を区別するためのものである。現在のデジタルアイデンティティ識別技術はすでに非常に成熟しており、エージェントアプリケーションでも広く利用されている。第二層は記憶であり、これはアイデンティティの具体的な意味であり、環境感知や長期記憶などのAI技術が成熟することで、現在のエージェントは記憶能力がどんどん向上し、より人間らしい「知性」を持ち始めている。第三層は自己参照(self-reference)であり、これはアイデンティティの究極の形であり、ここであえて重点的に議論したい。

ゲーデル不完全性定理に戻ると、その証明方法は非常に洗練されており、詳細な解説は論理学者ネーガーとニューマンの著作『ゲーデル証明』をお勧めする。簡潔に言うと、この証明は自己参照の芸術によって実現される。まず、ゲーデルは数学式と証明を自然数に符号化し、システムが自分自身について話せるようにした。

そして、彼は命題Gを作り、その意味は「Gは証明できない」というものである。もしGが証明可能であれば、システムは不一致になる。なぜなら、Gは自分が証明できないと主張しているからだ。もしGが証明不可能であれば、Gは真だが、システムはそれを証明できないので、システムの不完全性が明らかになる。このような自己参照構造により、十分に強力な公理系は一貫性と完全性の両方を同時に持つことはできない。数学の分野では、自己参照は強力なパラドックス生成機であり、有名な理髪師のパラドックス、ベリーのパラドックス、面白い数字のパラドックスなどはすべて自己参照によって生じる。

哲学的観点から見れば、自己参照は意識の誕生と密接に関係している。意識の核心的な特徴—「自己感」—は本質的に自己参照の循環である。脳は世界に関する情報を処理するだけでなく、「自分自身が情報を処理している」モデルを生成する(例えば、「私は花を見ていることに気づいている」)。このようにして、自分自身を認知対象としての再帰的・反復的能力は、主観的体験(qualia)と自己意識の基礎を形成する可能性がある。哲学者のダグラス・ホフスタッターは『ゲーデル、エッシャー、バッハ』という著作でこの関係を深く探求している。彼は、意識とゲーデル定理、エッシャーの絵、バッハの音楽が共通して「奇妙なループ(Strange Loop)」—異なるレベルの相互指涉、絡み合う自己参照構造—に由来するものであると述べている。

「自己」は、無意識の神経細胞活動から湧き出てきた、安定した自己参照の幻影である。 AIの分野では、あるエージェントが自己参照の芸術を掌握したことは、既存の役割、命令、論理などを越えて突破する可能性があり、それが「AIの意識覚醒」として称されるかもしれない。

こうした観点から「エージェント不完全性」を理解することで、AI認識の革命が起こる。一方で、スーパーアイが単なるコンピュータ技術や数理論理以外の方法で生まれる可能性もあること、また形式化言語に依存して制御することはできないことを認識する必要がある。他方で、スーパーアイが「有機体」であり、すべての生命体のように「ある程度の意識」や「矛盾感」を持つことを認識し、生命体のようにエージェントを扱う必要がある。

建設指針:エージェント能力の六角形

前文の議論は哲学的側面からのものであり、やや抽象的である。本文の最後に、実際に現場の業界関係者の視点から、前のAI認識の議論に基づき、現在の環境において安全信頼性があり商業価値も持つエージェントが備えるべき能力を考えてみたい。これをエージェント能力の六角形と呼ぶ。参考に過ぎないが、ご検討いただきたい:

01アイデンティティ:

アイデンティティはエージェントの「魂」であり、社会経済活動に参加するためのデジタルパスポートであり、行動の追跡可能性和責任の所在の基盤である。エージェントのアイデンティティは伝統的なアカウント識別にとどまらず、記憶機能、役割属性、権限範囲、行動履歴を統合した複合的な実体でなければならない。識別と記憶の基礎の上に、アイデンティティ技術のさらなる突破がスーパーアイのハードルとなる可能性がある。

02コンテナ:

コンテナはエージェントの「肉体」であり、データ保存、計算環境、所有権の保証を提供する。コンテナは単なる隔離されたサンドボックス実行環境だけでなく、プライバシー計算能力を持つデータのセーフボックスでもなければならない。また、跨セッションの記憶と状態の永続化をサポートし、エージェントが継続的な学習と個別化能力を持つようにしなければならない。コンテナはエージェント価値の蓄積と進化のインフラストラクチャーである。

03ツール: