浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。

浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。
知譜チームは4つの動画生成コア技術をオープンソース化しました。GLM-4.6Vの視覚理解、AutoGLMデバイス操作、GLM-ASR音声認識およびGLM-TTS音声合成モデルを含み、マルチモーダル分野における最新の進展を示し、動画生成技術の発展に基盤を築きました。
グーグルDeepMindのCEOハサビスは、Axios AI+サミットで2026年はマルチモーダルAI、インタラクティブな動画の世界、信頼性の高いAIエージェントが急速に発展する重要な一年になると予測した。特に彼の最新モデルであるGeminiはマルチモーダル能力において顕著な進歩を遂げており、ストーリーを説明するだけでなく、シーンの深い意味を深く理解できるようになったと述べた。
フランスのAI企業Mistralが新モデルを発表し、GoogleやOpenAIなどの世界的な先端ラボに追いつくことを目指す。大規模モデルと小型ロボット向けモデルをリリースし、AI分野の競争激化を浮き彫りにしている。....
商湯科技と南洋理工大学S-Labが共同でオープンソースのマルチモーダルモデル「NEO」を発表。アーキテクチャ革新により視覚と言語の深層統合を実現し、同類モデルの1/10の3.9億画像テキストデータで最高レベルの視覚認識性能を達成。大規模データや追加視覚エンコーダー不要で、効率性と汎用性に革新をもたらす。....
快手が新多モーダルモデル「Keye-VL-671B-A37B」を発表しオープンソース化。視覚理解・映像分析・数学推論で優れた性能を発揮し、AI技術力を示す。....