浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。

浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。
MiniMax(シユテクノロジー)は2026年3月23日に、Coding PlanをToken Planにアップグレードし、世界で最初にマルチモーダルモデルをサポートするサブスクリプションサービスを発表しました。この動きは、同社がプログラミングツールから全シーンでのオフィスと創作エコシステムへの戦略的な拡大を示しています。ユーザーは一括のToken Plan Keyを通じて、プログラミング、動画、音声、音楽、画像生成などのすべてのマルチモーダルモデルにアクセスでき、1つのサブスクリプションで多様な専門的なニーズをカバーできます。
NVIDIAは2026年のGTCカンファレンスで、オープンソースモデルの家族を大幅に拡張し、Nemotron 3シリーズのマルチモーダルモデルを主に発表しました。そのうちのNemotron 3 UltraはBlackwellアーキテクチャに基づいて最適化され、処理効率が5倍に向上し、複雑なコード補助および企業ワークフロー向けに設計されています。同時に、マルチモーダルインタラクションの最新成果も紹介され、エージェントや物理的AI、医療分野でのイノベーションの加速を目指しています。
アップルはマルチモーダルモデル「Manzano」を発表しました。イノベーションな「二重構造」アーキテクチャにより、AI分野で長年抱いてきた視覚理解と画像生成の両立が難しいという課題を解決しました。
知譜チームは4つの動画生成コア技術をオープンソース化しました。GLM-4.6Vの視覚理解、AutoGLMデバイス操作、GLM-ASR音声認識およびGLM-TTS音声合成モデルを含み、マルチモーダル分野における最新の進展を示し、動画生成技術の発展に基盤を築きました。
グーグルDeepMindのCEOハサビスは、Axios AI+サミットで2026年はマルチモーダルAI、インタラクティブな動画の世界、信頼性の高いAIエージェントが急速に発展する重要な一年になると予測した。特に彼の最新モデルであるGeminiはマルチモーダル能力において顕著な進歩を遂げており、ストーリーを説明するだけでなく、シーンの深い意味を深く理解できるようになったと述べた。