ソフトウェア工学分野において、昆仑万維は6月20日に正式に、独自で開発したコードインテリジェンスベースモデル「Skywork-SWE-32B」を発表し、それをオープンソース化しました。このモデルはソフトウェア工学タスクにおいて非常に優れたパフォーマンスを示し、32B パラメータ規模での業界最高レベルのコード修正能力を有しています。昆仑万維のチームは、GitHubリポジトリの超過1万件の検証可能なタスクインスタンスを構築し、大規模な検証可能なデータセットを作成することで、大規模モデルがソフトウェア工学タスクでデータスケーリングの法則を満たすことを体系的に検証しました。

image.png

Skywork-SWE-32Bは、SWE-bench Verifiedベンチマークにおいてpass@1の精度38.0%を達成し、Qwen2.5-Coder-32BシリーズモデルがOpenHandsコードフレームワーク上で記録した最高値を更新しました。テスト時拡張技術を導入することで、その正確率はさらに47.0%まで向上し、32Bパラメータ規模以下の現在のオープンソースモデルを上回るだけでなく、一部のクローズドソースモデルとのパフォーマンスギャップも縮小させました。

昆仑万維のチームは、現在の市場にあるSWEタスクの主要なデータセットに存在する問題に対処するために、トレーニングデータの収集と検証を行うための三段階の自動化プロセスを開発しました。データ収集フェーズでは、GitHub APIを使用して15万以上のオープンソースリポジトリの情報を取得し、厳格な選別ステップを経て最終的に23,389個のタスクサンプルを残しました。検証フェーズでは、統一されたコマンド生成とDocker環境構築技術を使用して、各タスクサンプルの有効性を確認し、最終的に10,169件の高品質なサンプルを生成しました。

image.png

インテリジェントエージェントトラジェクト生成フェーズでは、チームはオープンなOpenHandsフレームワークを使い、商用の大規模モデルをベースとして、各タスクに対して複数のインタラクションを行い、インテリジェントエージェントの解決過程を完全に記録しました。最終的に、8,209件の高品質な検証通過した軌跡を構築し、Skywork-SWE-32Bのトレーニングに強固な基礎を提供しました。

Skywork-SWE-32Bの成功的なリリースにより、ソフトウェア工学インテリジェントエージェントの発展に新たな活力を与え、複雑な開発シナリオでの能力と可能性を示しました。

ブログURL🔗 

https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd

HuggingFace URL🔗 

https://huggingface.co/Skywork/Skywork-SWE-32B

ポイント:

🌟 Skywork-SWE-32Bモデルは、SWE-bench Verifiedベンチマークでpass@1の精度38.0%を達成し、現存する32Bオープンソースモデルの最高記録を更新しました。

📈 テスト時拡張技術の導入により、モデルの正確率は47.0%に向上し、クローズドソースモデルとのパフォーマンスギャップを大幅に縮小しました。

🔍 昆仑万維は自動化プロセスを確立し、1万件を超える高品質で検証可能なSWEタスクデータセットを作成し、モデルのトレーニングの基盤を確立しました。