テンセントの混元チームは最近、新しく多モーダル理解モデル「混元Large-Vision」をリリースしました。このモデルはテンセントが得意としているMoE(エキスパート混合)アーキテクチャを使用しており、アクティブパラメータ数は52Bに達し、性能と効率の間で良いバランスを実現しています。

混元Large-Visionの主な特徴は、強力な多モーダル入力サポート能力です。このモデルは任意の解像度の画像処理だけでなく、動画や3D空間の入力も処理でき、ユーザーに包括的な視覚的理解体験を提供します。この技術の突破により、ユーザーは複雑な前処理操作を行わずに、さまざまな形式やサイズの視覚コンテンツを直接入力できるようになります。

MoEアーキテクチャの優位性が顕著に、効率と性能を両立

混元Large-VisionがMoEアーキテクチャを選択したのは偶然ではありません。このアーキテクチャは、異なる種類の入力に対応するために一部のエキスパートネットワークを動的にアクティブ化することで、モデルの強力な性能を保証しつつ、全パラメータをアクティブ化する計算リソースの無駄を回避します。52Bのアクティブパラメータ規模は現在の多モーダルモデルにおいて先進的であり、複雑な視覚理解タスクを処理できます。

また、このモデルは多言語シーンの理解能力を重点的に向上させました。これはグローバルアプリケーションにとって重要な意味を持ちます。画像や動画に複数の言語の文字が含まれている場合でも、混元Large-Visionは異なる言語環境における視覚コンテンツを正確に認識・理解でき、跨言語の多モーダルアプリケーションの技術的基盤を提供します。

任意解像度のサポートが新しいアプリケーションの可能性を開く

混元Large-Visionが任意解像度の画像入力をサポートするという特徴は特に注目されます。伝統的なビジュアルモデルでは、入力画像を固定サイズに調整する必要があり、情報の損失や画質の低下を引き起こすことがあります。一方で、混元Large-Visionは元の解像度の画像を直接処理できるため、視覚情報の完全性を保持します。これは細かい視覚分析が必要な应用场景にとって非常に重要です。

3D空間の入力サポートはモデルの応用範囲をさらに広げ、バーチャルリアリティ、拡張現実、3Dモデリングなどの分野でのAI応用に強力な技術的支援を提供します。動画処理能力と組み合わせることで、このモデルはスマート監視、動画分析、コンテンツ制作など多くの業界で重要な役割を果たすことが期待されます。

テンセントの混元Large-Visionのリリースにより、国内の多モーダルAIモデルの競争状況がさらに激化しています。各大手メーカーが多モーダル理解分野に継続的に投資していく中、ユーザーはよりスマートで効率的なAIビジュアル理解サービスを享受できるようになるでしょう。