アンソロピックが最近後方コードで頻繁に動き始めたことにより、通称「claude-mythos-1-preview」というモデルは公開リリースの直前まで迫っています。かつて「能力が強すぎる」ため厳しく制限されていたこの先進的なモデルは、実験室の制御された環境から開発者ツールへと少しずつ移行しており、これはAIの安全管理が「防御的な制限」から「積極的なツール化」への重要な一歩を示しています。

image.png

1. Claude Mythos:なぜ「危険な裏技」と呼ばれるのか?

4月7日にベータ版がリリースされて以来、Claude Mythosは大きな安全上の論争を引き起こしています。そのコアな能力は単なる「コードの作成」ではなく、プロフェッショナルな自動的なネットワーク攻撃能力を持っています:

  • 自動的なバグ検出: レッドチームテストにおいて、Mythosが主流のオペレーティングシステムやブラウザにおける「ゼロデイ脆弱性(Zero-day Vulnerabilities)」を独立して見つけ出し利用することを証明されています。

  • 飛躍的な推論: 旗舰モデルであるOpus4.7に比べて、Mythosはコード論理、自律的な実行および推論の深さにおいて質的な飛躍を遂げています。

  • 急速な侵入: 研究によると、専門的なセキュリティ背景を持たない人でも、Mythosの指導のもとで完全な悪意のあるコマンドを書くことができ、これは悪用される場合、世界中のデジタルインフラストラクチャにシステム的な災害をもたらす可能性があります。

したがって、アンソロピックはこのモデルを「防火壁」内に閉じ込めており、認可された限定されたパートナーのみに提供していました。

2. Project Glasswing:「隠す」から「使う」へ

Mythosによるセキュリティの不安を和らげるために、アンソロピックは「Project Glasswing」計画を開始しました。この計画はモデルを「退職させる」ためではなく、エコシステムとの協調によって防御者の武器に変えるためのものです:

  • セキュリティの基盤: アンソロピックは約50社の主要なテクノロジー企業パートナー(オペレーティングシステムメーカー、オープンソース基金会など)と提携し、Mythos Previewを活用して世界中の重要なソフトウェアに対してバグスキャンを行っています。

  • 顕著な成果: このプロジェクトの最初の月には、Mythos Previewが10,000以上の高リスクまたは深刻なバグを特定するのに役立ちました。

  • 防御のパターン転換: 以前はソフトウェアセキュリティの進行は人間がバグを見つける速度に制限されていましたが、今では「バグの検証と修正の速度」に制限されるようになりました——これはAIがもたらす大きな効率の向上です。

3. 未来のトレンド:Mythosの「公的試験」のルートマップ

現在、Mythosの公開は「いつか」ではなく、「どのように」の問題となっています。最新の兆候によると:

  1. ツールの深い統合: クライアントがClaude CodeClaude Securityのバックエンドインターフェースでキャプチャしたモデルのスイッチは、アンソロピックがより完備された「セキュリティガードレールシステム」(Guardrails)を構築していることを示唆しています。このシステムのコンプライアンスと制限メカニズムが成熟すれば、Mythosクラスのモデルはより広範囲な商用段階に入ります。

  2. セキュリティダッシュボードのアップグレード: Claude Securityは新たな視覚化ダッシュボードを開発しており、バグの傾向、歴史的なスキャン結果、修復進捗を直感的に表示します。これは、商業レベルのセキュリティスイート(Security Suite)への移行を示す信号です。

  3. 「Restricted」から「Release」へ: まだリリースの制限があるものの、アンソロピックは、より強力なセキュリティガードレールが開発されれば、この種のモデルを一般的にリリースすることを望んでいると明言しています。

業界の見解:AIガバナンスの「矛と盾」

Claude Mythosの登場はサイバーセキュリティの論理を再定義しています:今後、誰がAIを使ってバグを発見する能力を率先して掌握できるか、それがシステム防御の主動権を握ることになります。

開発者にとっては、Claude Mythos1のリリースは「自主的なセキュリティ監査」が標準的な業務フローとなることを意味します。しかし、全体的なインターネットにとっても、これは一種の「軍備競争」の開始を意味しています——AIが自動的にバグを発見・修正できるようになれば、防衛者と攻撃者の対決はナノ秒単位の時間枠内で行われるようになります。