浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。

浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。
稀宇科技が本日、ネイティブマルチモーダルフラッグシップモデル「MiniMax M3」をオープンソース化。総パラメータ428B、活性化パラメータ23Bで、業界初のモデル。既に重みを公開し、スパース注意機構の論文を発表、注目を集めている。オープンソースモデル総合性能で1位。....
グーグルが新しいマルチモーダルモデルGemma 4 12Bを発表しました。従来のアーキテクチャを逆転させ、独立した符号化器部品を取り除き、コンシューマー機器で効率的なローカルへの展開と推論を実現しました。この画期的な革新は、マルチモーダルモデルの計算複雑性を大幅に軽減し、実行速度を向上させ、オープンソース大規模モデルエコシステムの新たな段階を示しています。
グーグルがGemma 4 12Bマルチモーダルモデルをリリースしました。120億パラメータを持ち、従来のエンコーダーを创新的に廃止し、直接視覚および音声データを処理できます。このモデルは16GBのVRAMのみを必要とし、ハイエンドノートパソコンでローカルに実行でき、クラウドリソースに依存する必要はありません。
NetEase Youdaoが「子曰」大モデル4.0を発表し、全モーダル時代にアップグレード。テキスト、画像、音声の融合インタラクションをサポート。マルチモーダルモデルとTTSモデルをオープンソース化。翻訳モデルを再構築し、品質と効率を向上。視覚と数理分野でSOTAを達成し、テキスト数理問題で業界をリード。....
MiniMax(シユテクノロジー)は「10x Team」グローバル人材協力計画を開始した。この計画は、各業界のトップエキスパートを集結し、業界の深い理解と最先端のAI技術を組み合わせ、大規模モデルを垂直分野に応用することを目的としている。これは一般的な生産性から専門的な場面へと拡張し、業界効率を10倍に高めるものである。また、業界における認知価値を検証するため、マルチモーダルのコアリソースを公開している。