微軟 GitHub 於 4 月 6 日發佈了一個激動人心的消息,爲其 Copilot CLI 推出了一項名爲 Rubber Duck 的實驗性功能。這項新功能引入了一種跨模型的 “第二意見” 審查機制,旨在幫助開發者提升代碼的準確性和效率,最終使 AI 的性能提升近 75%。

image.png

在軟件開發過程中,早期的決策錯誤往往會積累成更大的問題,而傳統的自我審查方法容易受到模型本身訓練偏差的影響。Rubber Duck 的推出,正是爲了引入不同的模型作爲獨立審查者,從而提供多元化的視角,及時發現潛在的錯誤。這項功能支持用戶選擇 Claude 系列模型作爲主控,接着使用 GPT-5.4 進行代碼審查,確保代碼的準確性和完整性。

通過 SWE-Bench Pro 基準測試,研究顯示 Claude Sonnet 4.6 和 Opus 4.6 的單獨運行存在顯著性能差距,而 Sonnet 4.6 結合 Rubber Duck 後,成功彌補了 74.7% 的性能差距。在處理複雜任務時,該功能的表現更爲突出,得分比基線高出 3.8%。具體案例表明,它能有效識別架構邏輯漏洞、循環覆蓋錯誤以及跨文件的衝突問題。

Rubber Duck 的使用方式靈活多樣,支持主動、被動和用戶觸發的三種審查模式。系統會在制定計劃、複雜實現和測試編寫後的關鍵節點自動尋求審查,也可以在開發者陷入問題時被動觸發。同時,用戶還可以隨時主動請求審查,系統會展示反饋內容和修改依據。

目前,Rubber Duck 功能已在實驗模式下上線,用戶只需安裝 GitHub Copilot CLI 並運行 /experimental 命令,即可啓用這一新功能,享受 Claude 模型與 GPT-5.4 的協同工作體驗。

劃重點:

🌟 1. 微軟 GitHub 推出 Rubber Duck 功能,引入跨模型的 AI 審查機制,提升編程效率。  

🔍 2. 該功能通過結合 Claude Sonnet 4.6 和 GPT-5.4,成功彌補 74.7% 的性能差距。  

⚙️ 3. Rubber Duck 支持多種審查模式,用戶可主動請求審查,確保代碼質量。