今日は、人工知能企業のAnthropicがエースモデルClaude Opus4のアップグレード版であるClaude Opus4.1を正式にリリースしました。今回のアップデートは、エージェントタスク、現実世界でのプログラミングおよび推論能力を全体的に向上させることを目的としており、特にプログラミングとデータ分析におけるパフォーマンスが注目されています。

QQ20250806-084859.png

公式情報によると、Claude Opus4.1の最大の特徴は驚異的なプログラミング性能の向上です。SWE-bench Verifiedプログラミング評価において、その結果は74.5%に達し、複雑なコード問題を処理する際の強力な実力を示しています。GitHubからのフィードバックもこれに裏打ちされており、開発者たちはOpus4.1がマルチファイルコードのリファクタリングなどのタスクで前のバージョンを上回っていると一般的に考えています。また、日本の小売大手Rakuten Groupも、新モデルが大型コードベース内のエラーをより正確に特定でき、不要な変更や潜在的なバグを効果的に減らすことができると指摘しています。

QQ20250806-084917.png

プログラミング能力の飛躍的な向上に加え、Opus4.1は深い研究とデータ分析においても顕著な進歩を遂げており、特に細部の追跡とエージェント検索能力が強化されています。Windsurfのベンチマークテスト結果によると、Opus4.1のパフォーマンスはOpus4よりも1つの標準偏差分向上しており、これはSonnet3.7からSonnet4への進化に匹敵する進歩です。

このアップデートにより、大幅な性能向上がもたらされたものの、AnthropicはOpus4.1が段階的な改善であり、革命的な更新ではないことを強調しています。それは引き続き**AIセキュリティレベル3(ASL-3)**の基準に基づいて展開され、いくつかのセキュリティ評価において安定性を示しています。新しいモデルは、規制違反の要求を拒否する能力がわずかに向上し、無害な応答率は98.76%に達しています。また、子供の安全、政治的バイアス、およびエージェント能力テストにおいて、Opus4.1のリスクレベルは前バージョンと同様であり、極端な悪用シナリオでの協力性は約25%低下し、より高いセキュリティを示しています。

Claude Opus4.1は現在、すべての有料ユーザー、Claude Code、API、Amazon Bedrock、Google Cloud Vertex AIに対して公開されており、価格はOpus4と同じです。