Moonshot AIは、新しいオープンソースモデル「Kimi-Dev-72B」のリリースを発表しました。このモデルはソフトウェアエンジニアリングタスクに特化しており、AIプログラミングベンチマーク「SWE-bench Verified」で世界最高のオープンソースモデルスコアを達成しました。Kimi-Dev-72Bはわずか72億のパラメータ数設計でありながら、最近発表されたDeepSeek-R1(671億パラメータ)を上回りました。
SWE-bench Verifiedでのテストでは、Kimi-Dev-72Bが60.4%の高得点を獲得し、現在のオープンソースモデルの新基準となりました。このモデルの最適化プロセスには大規模な強化学習が含まれており、Docker環境内のリアルなリポジトリのエラー修正が可能です。Kimi-Dev-72Bはすべてのテストケースが通過した場合にのみ報酬を得られるため、生成される解決策の正確さと堅牢性が確保されます。
Kimi-Dev-72Bは現在、Hugging FaceとGitHubプラットフォームでダウンロード可能となっており、モデルの重みやソースコードが利用できます。技術レポートも間もなく公開されます。Hugging Faceリンク:huggingface.co/moonshotai/Kimi-Dev-72B、GitHubリンク:github.com/MoonshotAI/Kimi-Dev。
デザイン理念において、Kimi-Dev-72BはBugFixerとTestWriterの両方の役割を果たします。BugFixerはエラーを修正し、TestWriterは対応する単体テストを作成します。これらの部分は互いに補完し合い、プログラミングタスクにおける効果を向上させます。Kimi-Dev-72Bの作業プロセスはシンプルで明確で、主にファイルのローカライズとコードの編集という2つの段階に分かれています。
モデルの能力を強化するために、月之暗面は約1500億個の高品質データを使用して中期トレーニングを行いました。これらのデータはGitHubのリアルな問題やPR提出から来ています。厳密なデータクリーニングにより、このモデルは人間開発者がどのように問題を解決し、コードを書くか学習できます。強化学習フェーズでは、コード編集能力を重点的に向上させ、結果に基づく報酬システムを通じてモデルのパフォーマンスを段階的に最適化しています。
テスト段階では、Kimi-Dev-72BはBugFixerとTestWriterの役割を調整し、自己対戦メカニズムを採用することでモデルのパフォーマンスと効果を向上させています。各問題に対して最大40個のパッチ候補とテスト候補を生成することが可能であり、これは自己対戦メカニズムの強力な効果を示しています。
将来、月之暗面はKimi-Dev-72Bの機能をさらに拡張し、人気のある開発ツールとの深い統合を模索し、開発者のワークフローにさらなるシームレスな統合を目指しています。同社はこのモデルを引き続き改善し、厳格な赤チームテストを実施して、コミュニティにさらに強力なバージョンを提供することを約束しています。
Hugging Faceリンク:huggingface.co/moonshotai/Kimi-Dev-72B
GitHubリンク:github.com/MoonshotAI/Kimi-Dev
ポイントを整理:
🔍 Kimi-Dev-72Bは新しいオープンソースモデルで、プログラミングベンチマークテストで世界最高スコアを達成しました。
🚀 このモデルはプログラミングの効率とコード品質を向上させるためにBugFixerとTestWriterの機能を組み合わせています。
💡 月之暗面は今後、Kimi-Dev-72Bをより人気のある開発ツールと統合し続ける予定です。