浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。

浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。
ByteDanceと大学が共同でSa2VAモデルを開発。LLaVAの視覚言語理解とSAM-2の精密分割を統合し、動画内容の解析と対象の追跡・分割を実現。....
過去2年でAI技術が急速に発展し、ChatGPTやマルチモーダルモデルが変革を推進。企業・開発者はAIを活用して生産性向上を図るが、モデルAPI標準の不統一、コスト管理の複雑さ、データセキュリティ・コンプライアンスの高要求、ハイブリッドモデル管理の不足という4大課題が実用化の障壁となっている。....
LLaVA-OneVision-1.5が発表され、画像・動画処理可能なマルチモーダルモデルに進化。オープンなトレーニングフレームワークを提供し、3段階の訓練プロセスで高品質なモデル構築を可能に。....
アップル社は、2025年10月ハワイ(ホノルル)で開催される国際コンピュータビジョン会議(ICCV)において8本の論文を発表する予定で、マルチモーダルモデルや動画生成などの最先端技術に焦点を当て、コンピュータビジョン分野での最新研究成果を共有する。
マスク氏のxAI社はAGI開発のため「世界モデル」を加速中。NVIDIAからOmniverse開発の核心研究者2名を引き抜き、技術力を強化。....