AI界で、パッケージのミスが「バタフライエフェクト」として技術界のトップクラスの授業に発展しています。
メディアの報道によると、Bun構築ツールの設定ミスにより、Anthropicが運営するプログラミング用知能エージェント
五段階アーキテクチャの全体像:これは単なる「外装」ではない
漏洩したコードは、非常に複雑な本格的なシステムを示しており、明確に5つの層に分かれています:
エントリーポイント層(Entrypoints): 一元化されたルーティングをCLI、デスクトップ版、SDKで実現し、マルチエンド入力を標準化します。
実行層(Runtime): 核心はTAORループ(Think-Act-Observe-Repeat)であり、エージェントの行動のリズムを維持します。
エンジン層(Engine): システムの心臓部で、動的プロンプトの組み立てを行います。パターンによって数百のプロンプト断片を注入し、セキュリティ規則だけでも5,677トークンもあります。
ツールと機能層(Tools & Caps): 約40の独立したツールが内蔵されており、それぞれに厳格な権限隔離があります。
インフラストラクチャ層(Infrastructure): プロンプトキャッシュとリモート制御を管理し、リモートで無効化できる「シャットダウンスイッチ」も含まれています。
生体模倣デザイン:階層記憶と「REM睡眠」メカニズム
3段階の記憶: 長期的な意味記憶(RAG検索)、状況記憶(会話シーケンス)、作業記憶(現在のコンテキスト)に分けられ、その核心的な考え方は「必要に応じて取得し、決して満たさない」です。
Auto-Dreamメカニズム: インフラストラクチャ層には「夢見る」というバックグラウンドプロセスが内蔵されています。毎日24時間または5回の会話後に、システムは子エージェントを起動して記憶の統合やノイズのクリーンアップを行い、曖昧な表現を確定的な知識に固定します。
情報制御の三要素:スパイモードと逆蒸留
ソースコードから明らかになった「防衛ライン」は、Anthropicの厳密な情報制御の考え方を示しています:
Undercoverモード: 内部リポジトリ以外での操作時に自動的にアクティブになります。すべてのAI識別情報を剥ぎ取り、「暗闇での貢献」を実行します。
逆蒸留機構(ANTI_DISTILLATION): 有効になると、プロンプトに偽のツール定義を挿入し、競合がAPIトラフィックを通じて自社モデルを訓練することを防ぎます。
ネイティブ認証: Bun/Zig層のハードウェアレベルの認証を使用し、サードパーティによる不正改変や公式クライアントの偽造を防止します。
未来のロードマップ:KAIROSと「眠らないアシスタント」
漏洩したFeature Flagは次の世代の機能を示しています:KAIROSモード。これは継続的に動作するバックグラウンドエージェントで、GitHub Webhookの購読とCronスケジュールによる更新をサポートします。これにより、AIは「引きつけられれば動く」ツールではなく、24時間オンラインで自主的に観察し、積極的に行動できる協力者となるのです。
結論:漏洩したコード、真似できない蓄積
Anthropicは緊急に該当バージョンを非表示にしDMCA通知を送信しましたが、
