零一万物、Yi-VLマルチモーダル言語モデルを発表、2つのバージョンを含む

零一万物 Yi-VL 多模态言語モデル

零一万物 Yi-VL 多模態言語モデルは、零一万物 Yi シリーズモデルファミリーの新たなメンバーです。画像とテキストの理解、そして対話生成において卓越した能力を備えています。

Yi-VL モデルは、英語データセット MMMU と中国語データセット CMMMU の両方でトップクラスの成績を収め、複雑な学際的なタスクにおける高い能力を示しました。

Yi-VL-34B は、新しい多模態ベンチマークテスト MMMU において、41.6% の精度で他の多模態大規模モデルを凌駕し、強力な学際的な知識理解と応用能力を明らかにしました。

Yi-VL モデルは、オープンソースの LLaVA アーキテクチャに基づいており、Vision Transformer（ViT）、Projection モジュール、大規模言語モデル Yi-34B-Chat および Yi-6B-Chat を含んでいます。ViT は画像のエンコーディングに使用され、Projection モジュールは画像特徴とテキスト特徴空間のアライメントを実現し、大規模言語モデルは強力な言語理解と生成能力を提供します。

DeepSeekの台頭による大規模言語モデル6社の戦略転換

過去1ヶ月、DeepSeekの発表により世界の巨大言語モデル市場は激震に見舞われ、各社は新興勢力への対応策を問われています。中国市場において、ユニコーン企業となった6社の大規模言語モデルスタートアップ（零一万物、百川智能、階躍星辰、智譜華章、月之暗面、MiniMax）は厳しい試練に直面していますが、それぞれの対応策は異なる方向性を示しています。まず、零一万物の創設者である李開復氏は以前、同社が超巨大言語モデルの追求を断念したと発言しました。

Metaの最新音声大規模言語モデルSPIRIT LM、AIは話すだけでなく「声情并茂」に！

Meta AIは最近、SPIRIT LMと呼ばれる基礎的なマルチモーダル言語モデルを大々的にオープンソース化しました。このモデルはテキストと音声の自由な混合が可能で、音声とテキストのマルチモーダルタスクに新たな可能性を開きます。SPIRIT LMは70億パラメーターの事前学習済みテキスト言語モデルをベースに、テキストと音声のユニットで継続的に学習することで音声モダリティに拡張されました。テキストの大規模言語モデルのようにテキストを理解・生成できるだけでなく、音声の理解・生成も可能で、テキストと音声を混合して様々なものを創造することもできます。

Salesforce AI研究、新たなマルチモーダルモデルBLIP-3-Videoを発表：低コストで動画理解を実現

Salesforce AI研究チームは最近、新たなマルチモーダル言語モデルであるBLIP-3-Videoを発表しました。動画コンテンツの急増に伴い、動画データを効率的に処理することが喫緊の課題となっています。このモデルは、自動運転からエンターテインメントまで、あらゆる業界で動画理解の効率と効果を高めることを目指しています。従来の動画理解モデルは、多くの場合、動画をフレームごとに処理して大量の視覚情報を生成していました。このプロセスは、膨大な計算資源を消費するだけでなく、処理能力も大きく制限していました。

零一万物と順豊科技がエコシステム連携を発表 AIとサプライチェーン管理の深層融合を目指す

8月18日、零一万物と順豊科技はエコシステム連携を発表しました。両社は人工知能とサプライチェーン管理の深層融合を探求し、サプライチェーンマネジメントのインテリジェント化を推進します。今回の連携は、零一万物が持つ大規模言語モデル技術と、順豊科技の持つスマートサプライチェーン分野における深い理解を組み合わせたものです。順豊科技のサプライチェーン分野における新たなブレークスルーを目指すとともに、零一万物のYiシリーズ大規模言語モデルをより幅広いビジネスシーンで活用することを目的としています。

零一万物、Yi-VLマルチモーダル言語モデルを発表、2つのバージョンを含む

関連推奨

李開復氏、汎用企業向け大規模言語モデルプラットフォーム「万智」を発表　大規模言語モデル競争における新たな方向性を強調

DeepSeekの台頭による大規模言語モデル6社の戦略転換

Metaの最新音声大規模言語モデルSPIRIT LM、AIは話すだけでなく「声情并茂」に！

Salesforce AI研究、新たなマルチモーダルモデルBLIP-3-Videoを発表：低コストで動画理解を実現

零一万物と順豊科技がエコシステム連携を発表 AIとサプライチェーン管理の深層融合を目指す

零一万物、Yi-VLマルチモーダル言語モデルを発表、2つのバージョンを含む

関連推奨

李開復氏、汎用企業向け大規模言語モデルプラットフォーム「万智」を発表 大規模言語モデル競争における新たな方向性を強調

DeepSeekの台頭による大規模言語モデル6社の戦略転換

Metaの最新音声大規模言語モデルSPIRIT LM、AIは話すだけでなく「声情并茂」に！

Salesforce AI研究、新たなマルチモーダルモデルBLIP-3-Videoを発表：低コストで動画理解を実現

零一万物と順豊科技がエコシステム連携を発表 AIとサプライチェーン管理の深層融合を目指す

李開復氏、汎用企業向け大規模言語モデルプラットフォーム「万智」を発表　大規模言語モデル競争における新たな方向性を強調