アンソロピックは今年も勢いが衰えず、ほぼ毎日のように新たな動きが行われている。そしてさっき、待ちに待った「Claude Opus4.7」が正式リリースされた。面白いことに、アンソロピックは発表文で直接明言している。「これは私たちの最も強力なモデルではありません。」というのだ。噂されているよりさらに強力な「Claude Mythos Preview」はまだ動じていない。しかし、それにもかかわらずOpus4.7は大きな注目を集めている——なぜなら、それは「もっと賢くなる」問題ではなく、「もっと信頼性が高い」問題を解決したからだ。

スコアリングの面では、結果は非常に印象的である。 ここでのハードウェアプログラミング基準SWE-bench Proでは、4.7は前バージョンの53.4%から64.3%へと跳ね上がり、前回と比べて約11ポイントの上昇を記録し、GPT-5.4(57.7%)やGemini3.1Pro(54.2%)を後ろに置いた。視覚的推論基準CharXivは69.1%から82.1%へと上昇し、その背景には新たに追加された2576ピクセルの長辺認識能力があり、解像度は前バージョンの3倍以上に向上している。ツール呼び出し評価MCP-Atlasでは77.3%を記録し、法的AIプラットフォームHarveyのBigLaw基準では90.9%を達成した。一方でAgentic検索評価BrowseCompでは、4.7は83.7%からわずかに79.3%へと下がり、GPT-5.4やGeminiに逆転されてしまった——しかし、これは4.7が「適当な答えを答えない」という性格のためであり、情報が欠けているときはエラーを出すことを選び、適当な数字を並べ立てるのを避けているからだ。
数値以上の点で、特に注目すべきはその「雰囲気の変化」である。 Replitの責任者はテスト後に「技術的な議論の中で私を反論してくれる。それによってより良い意思決定ができる。本当に素晴らしい同僚のようだ」と語った。データサイエンスプラットフォームHexも、4.7がデータが欠けている場合に直接エラーを出したり、前のバージョンのように「見かけ上は合理的だが完全に誤っている」代替値を挿入するのではなく、それを行わないことを確認した。同時に、タスクの耐久性も大幅に向上した——Notionチームのテストによると、ツールエラー率はこれまでの1/3にまで低下し、ツールチェーンがクラッシュしたときでも、障害を回避してタスクを完了できるようになった。Vercelはまた、新しい行動を発見した。4.7はシステムレベルのコードを書く前にまず数学的証明を行うのだ。

もちろん、強くなった代償もある。4.7は新しいトークン化器を導入しており、同じテキストでも元よりも1〜1.35倍のトークンになる。それに加えて、複雑なタスクにおいては「少し時間をかけて考える」傾向があるため、実際の消費量は必ず増えることになる。そのため、アンソロピックはxhighという超高度な思考強度を新設し、Claude Codeではすべてのサブスクリプションプランがこの設定に自動的に引き上げられ、深く審査する命令/ultrareview、Maxユーザー向けのAuto Mode拡張、そして開発者によるトークンの支出管理をサポートする「タスク予算」機能のベータ版が公開された。
そして、さらに強力なMythos Previewは、今月、「Project Glasswing」として企業向けに限定的に公開され、セキュリティ研究のために利用されている。ただし、能力が強すぎることと、セキュリティ評価がまだ完了していないため、公開はまだされていない。
今日の4.7は、アンソロピックが頻繁にリリースを続けている中で最新の安定則である。そしてMythosはいつかやってくる——その時、今すでにかなり強力な4.7は、きっと始まりに過ぎないだろう。
