月面暗面のKimiは、本日、新しいビジュアル思考モデル「k1」を発表しました。このモデルは強化学習技術に基づいており、エンドツーエンドの画像理解をサポートするだけでなく、思考連鎖技術も統合することで、数学以外の基礎科学分野(物理学や化学など)にも能力を拡張しています。ベンチマークテストでは、OpenAIのo1、GPT-4o、Claude3.5Sonnetなどの世界をリードするモデルを上回る性能を示しました。
新世代モデルは、より詳細な推論ステップの生成を促すことで、高品質の思考連鎖を形成し、複雑なタスクの成功率を大幅に向上させています。Kimiのk1モデルは、画像理解と思考能力を融合することで、よりスムーズなユーザー体験を提供し、外部のOCRや追加のビジュアルモデルを必要とせずに、ユーザーが入力した画像情報を直接処理して回答を得ることができます。
k1モデルのトレーニングは2段階で行われます。まず、事前学習によって基本モデルを作成し、その後、強化学習による後学習を行います。基本モデルはOCRBenchで903点という優れた成績を収め、MathVista-testmini、MMMU-val、DocVQAのベンチマークテストでも優れた結果を示しました。強化学習による後学習では、データ品質と学習効率が最適化され、大規模化において新たなブレークスルーを達成しました。
Kimiは、様々な難易度数理化画像問題を含む標準化テストセット「Science Vista」を独自に構築し、業界全体で利用できるように公開します。k1モデルは内部テストで、分布外汎化や複雑な問題の成功率などに改善の余地があることが示されましたが、ビジュアルノイズ環境下でのパフォーマンスは他のモデルを上回り、非常に優れた視覚認識能力を示しています。
Kimiスマートアシスタントのk1ビジュアル思考モデルは、数学分野だけでなく、物理学や化学分野でも優れた性能を発揮し、幅広い基礎科学能力を示しています。さらに、k1モデルは汎用的な能力も示しており、科学者の原稿の内容や背景ストーリーなど、数学以外の問題についても説明や推論を行うことができます。
Kimiスマートアシスタントは、ユーザーと共に更なる世界を探求することを目指しています。新しいk1モデルは既にリリースされており、最新バージョンのKimiスマートアシスタントのモバイルアプリまたはウェブ版でこの新機能をご体験いただけます。