マイクロソフトのGitHubは4月6日、Copilot CLIに「Rubber Duck」という実験的な機能を導入するという画期的なニュースを発表しました。この新機能は、モデル間で「第二の意見」を評価する仕組みを導入し、開発者がコードの正確性と効率を向上させることを目的としており、最終的にはAIの性能を約75%向上させることが期待されています。

image.png

ソフトウェア開発において、初期の決定ミスは後々大きな問題に積み重なることが多く、従来の自己レビュー方法はモデル自体のトレーニングバイアスに影響されがちです。Rubber Duckの登場は、異なるモデルを独立したレビュワーとして導入し、多様な視点を提供し、潜在的なエラーを早期に発見することを目的としています。この機能は、ユーザーがClaudeシリーズのモデルを主制御として選択し、その後GPT-5.4でコードレビューを行うことをサポートしており、コードの正確性と完全性を確保します。

SWE-Bench Proのベンチマークテストによると、Claude Sonnet 4.6とOpus 4.6の単独実行では顕著な性能差が見られました。しかし、Sonnet 4.6にRubber Duckを組み合わせた場合、74.7%の性能差を補うことに成功しました。複雑なタスクを処理する際にはその効果がさらに顕著で、ベースラインよりも3.8%高い得点を記録しています。具体的な事例では、アーキテクチャ論理の欠陥やループカバレッジのエラー、ファイル間の衝突問題など、さまざまな問題を効果的に識別できることが示されています。

Rubber Duckの使い方は柔軟で、アクティブモード、パッシブモード、ユーザー起動モードの3つのレビュー方式をサポートしています。システムは計画策定、複雑な実装、テストの作成後の重要なポイントで自動的にレビューを求めるほか、開発者が問題に詰まっている際にもパッシブにトリガーされます。また、ユーザーはいつでも積極的にレビューをリクエストでき、システムはフィードバック内容と修正の根拠を表示します。

現在、Rubber Duckの機能は実験モードで公開されており、ユーザーはGitHub Copilot CLIをインストールし、/experimentalコマンドを実行することでこの新しい機能を有効にできます。これにより、ClaudeモデルとGPT-5.4の協働による体験を楽しむことができます。

ポイント:

🌟 1. マイクロソフトのGitHubがRubber Duck機能を導入し、モデル間のAIレビューを導入してプログラミング効率を向上させます。

🔍 2. この機能はClaude Sonnet 4.6とGPT-5.4を組み合わせ、74.7%の性能差を補うことに成功しました。

⚙️ 3. Rubber Duckは多様なレビュー形式をサポートしており、ユーザーが積極的にレビューをリクエストし、コード品質を保証することができます。