浙大卒業生とマイクロソフトが共同でマルチモーダルモデルLLaVAを発表、GPT-4Vに挑む

浙江大学竺院校友とマイクロソフト研究所がGPT-4Vに挑む多様なモデルLLaVAを発表

浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。

LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85％上回る結果となっています。

LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。

MiniMaxがToken Planを発表：世界で初めてのマルチモーダルサブスクリプションプランでM2.7および動画音声モデルをサポート

MiniMax（シユテクノロジー）は2026年3月23日に、Coding PlanをToken Planにアップグレードし、世界で最初にマルチモーダルモデルをサポートするサブスクリプションサービスを発表しました。この動きは、同社がプログラミングツールから全シーンでのオフィスと創作エコシステムへの戦略的な拡大を示しています。ユーザーは一括のToken Plan Keyを通じて、プログラミング、動画、音声、音楽、画像生成などのすべてのマルチモーダルモデルにアクセスでき、1つのサブスクリプションで多様な専門的なニーズをカバーできます。

NVIDIAがNemotron 3シリーズのオープンソースモデルを発表：大規模モデルの推論効率が5倍に向上

NVIDIAは2026年のGTCカンファレンスで、オープンソースモデルの家族を大幅に拡張し、Nemotron 3シリーズのマルチモーダルモデルを主に発表しました。そのうちのNemotron 3 UltraはBlackwellアーキテクチャに基づいて最適化され、処理効率が5倍に向上し、複雑なコード補助および企業ワークフロー向けに設計されています。同時に、マルチモーダルインタラクションの最新成果も紹介され、エージェントや物理的AI、医療分野でのイノベーションの加速を目指しています。

知譜マルチモーダルオープンソース週が無事終了：4つの動画生成コア技術を全面開放

知譜チームは4つの動画生成コア技術をオープンソース化しました。GLM-4.6Vの視覚理解、AutoGLMデバイス操作、GLM-ASR音声認識およびGLM-TTS音声合成モデルを含み、マルチモーダル分野における最新の進展を示し、動画生成技術の発展に基盤を築きました。

DeepMindのCEOが2026年のAIの三大発展傾向を予測

グーグルDeepMindのCEOハサビスは、Axios AI+サミットで2026年はマルチモーダルAI、インタラクティブな動画の世界、信頼性の高いAIエージェントが急速に発展する重要な一年になると予測した。特に彼の最新モデルであるGeminiはマルチモーダル能力において顕著な進歩を遂げており、ストーリーを説明するだけでなく、シーンの深い意味を深く理解できるようになったと述べた。

浙大卒業生とマイクロソフトが共同でマルチモーダルモデルLLaVAを発表、GPT-4Vに挑む

関連推奨

MiniMaxがToken Planを発表：世界で初めてのマルチモーダルサブスクリプションプランでM2.7および動画音声モデルをサポート

NVIDIAがNemotron 3シリーズのオープンソースモデルを発表：大規模モデルの推論効率が5倍に向上

アップルがマルチモーダル新モデル「Manzano」を発表：画像の理解と描画の境界を打ち破る

知譜マルチモーダルオープンソース週が無事終了：4つの動画生成コア技術を全面開放

DeepMindのCEOが2026年のAIの三大発展傾向を予測

浙大卒業生とマイクロソフトが共同でマルチモーダルモデルLLaVAを発表、GPT-4Vに挑む

関連推奨

MiniMaxがToken Planを発表：世界で初めてのマルチモーダルサブスクリプションプランでM2.7および動画音声モデルをサポート

​NVIDIAがNemotron 3シリーズのオープンソースモデルを発表：大規模モデルの推論効率が5倍に向上

​アップルがマルチモーダル新モデル「Manzano」を発表：画像の理解と描画の境界を打ち破る

​知譜マルチモーダルオープンソース週が無事終了：4つの動画生成コア技術を全面開放

DeepMindのCEOが2026年のAIの三大発展傾向を予測

NVIDIAがNemotron 3シリーズのオープンソースモデルを発表：大規模モデルの推論効率が5倍に向上

アップルがマルチモーダル新モデル「Manzano」を発表：画像の理解と描画の境界を打ち破る

知譜マルチモーダルオープンソース週が無事終了：4つの動画生成コア技術を全面開放