昆仑万維は正式に Skywork R1V4-Lite をリリースしました。これは視覚操作、推論、計画能力を統合した軽量級のマルチモーダルインテリジェントエージェントです。従来のモデルとは異なり、Skywork R1V4-Lite は深い推論能力だけでなく、画像操作や外部ツールの呼び出し、マルチモーダルな深い研究を行うことができ、複雑なシナリオでの応用がより柔軟になります。

ユーザーは1枚の写真を撮るだけで、Skywork R1V4-Lite は迅速にタスクを完了し、空間位置を自動的に判断し、ぼかれた文字を拡大し、補助線を描画するなどできます。このインテリジェントエージェントの設計により、ユーザーは複雑なプロンプトを必要とせず、簡単な視覚入力でシステムが自律的に推論し、解決策を提示します。この特徴により、マルチモーダルインテリジェントエージェントが閉じた推論から開かれた相互作用への変化が可能になります。
Skywork R1V4-Lite は複数の権威あるベンチマークテストで優れたパフォーマンスを示しており、特にマルチモーダル理解タスクにおいて Gemini2.5Flash を上回り、非常に強い競争力を示しています。この主動的な画像操作能力により、情報不足や視点制限があるシナリオでは、モデルが画像を自動的にトリミング、拡大、回転して、明確で追跡可能な「視覚アクションチェーン」を構築できます。

さらに、Skywork R1V4-Lite はインターネット検索をサポートしており、タスクを実行する際に深く研究を引き起こすことができます。外部リソースと対話することで、推論の深さと幅を高めます。この跨モーダルな知識拡張能力により、学術、法律、生態、小売などの多くの分野で広範な応用可能性を示しています。
最も注目すべきは、Skywork R1V4-Lite が主動的なタスク計画能力を持っていることで、視覚入力に基づいて実行可能なタスクチェーンを生成できるということです。これは、ユーザーが単に答えを得るだけでなく、スマートエージェントによって詳細な実行計画を作成できることを意味し、さまざまなシナリオに正確な解決策を提供します。
Skywork R1V4-Lite Githubアドレス:
https://github.com/SkyworkAI/Skywork-R1V
ポイント:
🌟 Skywork R1V4-Lite は軽量級のマルチモーダルインテリジェントエージェントであり、視覚操作、推論、計画の3つの能力を持っています。
📸 ユーザーは1枚の写真を撮るだけで、システムは複雑なタスクを自動的に完了し、操作の利便性を向上させます。
🔍 このインテリジェントエージェントはマルチモーダル理解のベンチマークテストで優れたパフォーマンスを示し、強力なマルチモーダル推論と知識拡張能力を示しています。
