AIエージェントが複雑で多段階のタスクに進化する重要な段階において、オープンソースコミュニティに新たな力が加わった。Janチームは本日、Jan-v2-VL-Maxを正式にリリースした。これは300億パラメータを持つマルチモーダル大規模モデルで、長期間かつ高安定性な自動実行シーンに特化しており、主要指標でグーグルのGemini 2.5 ProやDeepSeek R1を上回り、オープンソースエージェントエコシステムに強力な動力となる。

「誤差蓄積」の問題に焦点を当て、多段階実行の「ズレ」を解決
現在、マルチモーダルエージェントが長系列操作(例えば自動UI操作やアプリケーション間タスクフロー)を実行する際には、中間ステップでのわずかな偏差により後続のタスクが全体的にずれてしまう「誤差蓄積」の問題が頻繁に発生している。Jan-v2-VL-Maxは、LoRAベースのRLVR(Reinforced Long-horizon Vision-Language Reasoning)技術を導入し、Qwen3-VL-30Bのベース性能を維持しつつ、推論チェーンの一貫性と耐障害性を大幅に向上させ、数十ステップの操作後でも正確にタスクを実行できるようにしている。
「幻覚減衰報酬」テストで首位を獲得、エージェントの新基準を定義
このモデルは新しい評価基準「幻覚減衰報酬(Hallucination-Decay Return, HDR)」において優れた結果を示した。この基準は、タスクの長さが延びるにつれて幻覚や論理の断絶によって報酬率が低下する速度を測定することを目的としている。Jan-v2-VL-Maxは長系列タスクにおいて高い報酬の安定性を維持し、Gemini 2.5 ProやDeepSeek R1を上回り、実際の自動化シナリオにおける信頼性を証明した。

即時使用可能、ローカルでの効率的な展開に対応
利用のハードルを下げるため、Janチームは以下を提供している:
- ウェブブラウザ上で直接操作できるインターフェースがあり、ユーザーは画像をアップロードし、指示を入力することで、多段階の自動化プロセスをテストできる。
- vLLMによる最適化されたローカル展開ソリューションで、コンシューマー向けGPUでも効率的に動作し、開発者が自社のエージェントシステムに統合しやすい。
オープンソースコミュニティの「長期的な思考」の突破
Jan-v2-VL-Maxは、ベースモデルと比較して長系列実行において「僅かな向上」に過ぎないが、エージェント分野では1%の安定性の向上は使い勝手の質的変化を意味する。この成果は、オープンソースコミュニティが「単一ステップの応答」から「長期的な計画」へと移行していることを示しており、UI自動化、ロボット制御、マルチツール協働などの高価値なシナリオに実現可能なオープンソース基盤を提供している。
AIbaseは、大規模モデルの競争が「誰がより賢いか」から「誰がより信頼できるか」へと変わる中、Janチームが実行の安定性に焦点を当てた技術的なアプローチがまさに適切であると考えている。エージェントがAIの主なインタラクションフォームになる時代の到来の中で、Jan-v2-VL-Maxは開発者が「トラブルを起こさない」スマートエージェントを構築するための重要なピースとなる可能性がある。
