記事本文

メイドゥーがネイティブマルチモーダルLongCat-Nextを発表：視覚と音声の下層統一を実現

公開AI二ュ-ス

時間 :Apr 3, 2026

読む :1分

4月3日、メイドテクノロジーチームはネイティブなマルチモーダル大規模モデル LongCat-Next を正式にリリースしました。このモデルは従来の「言語ベース＋プラグイン」の組み合わせ構造を打ち破り、画像、音声、テキストを同じソースの離散トークンに統一して変換することで、AIが初めて物理世界を「見る」と「聞く」ことをネイティブに可能にしました。

技術の核：DiNAアーキテクチャによる「モダリティ内化」

モダリティ間の隔絶を打破するために、メイドは DiNA（ディスクリートネイティブアラーキブ）アーキテクチャ を構築し、マルチモーダルモデリングの深い統一を実現しました：

全モダリティ統一： テキスト、画像、またはオーディオに関係なく、モデルは同一のパラメータ、注目機構、および損失関数を使用します。
理解と生成の対称性： 統一された数学形式において、テキストトークンを予測することは「理解」であり、画像トークンを予測することは「生成」です。訓練中に両者は顕著な協調的潜在能力を示します。
極限的な圧縮： dNaViTビジョントークナイザ を採用し、任意解像度の入力をサポートします。8層の残差ベクトル量子化により、28倍のピクセル空間圧縮が可能となり、OCR、財務報告解析などのタスクで重要な詳細を完全に保持します。

実証性能：ディスクリートモデリングには「上限」がない

LongCat-Nextは、専用モデルを超える性能を多くの次元で示しており、「ディスクリート化は情報の損失を伴う」という伝統的な見解を有力に打ち返しています：

細粒度の認識： OmniDocBenchの密集テキストシナリオテストでは、Qwen3-Omniを上回るだけでなく、専用視覚モデルであるQwen3-VLよりも優れています。
視覚推論： MathVistaテストで83.1のリードを記録し、強力な産業レベルの論理能力を示しています。
マルチモーダル協働： トップクラスの言語能力（C-Eval 86.80）を維持しながら、低遅延の並行テキスト・音声生成およびカスタマイズ可能な音声クローンをサポートしています。

業界観察：物理世界におけるAIの基盤

長年にわたり、大規模モデルは言語中心のシステムでした。しかし、LongCat-Nextの意義は、物理情報がディスクリート化され、言語のようにモデリングできることが証明された点にあります。AIが統一された「母語」を持つようになると、ツールの呼び出しやコードの作成、複雑な図表の理解がより賢く、直感的になります。

現在、メイドは、LongCat-NextモデルおよびdNaViTトークナイザをすべてオープンソース化しています。この小さなサイズながら大きな潜在力を有するネイティブなディスクリートアーキテクチャは、開発者に現実世界を感知し、作用させるAIを構築するための重要なツールとなるでしょう。

プログラミングとGUIを両方カバー！Qwen3.7-Plus登場 11時間で自律的な開発サイクルによる本物のアプリを開発

アリババは、テキスト能力に視覚言語機能を強化したマルチモーダル大規模モデル「Qwen3.7-Plus」を発表。GUIとCLIの融合により、プロトタイプからソフトウェアエンジニアリングまでのエンドツーエンド自動化を実現し、Vision Arenaランキングで高い性能を示す。エージェント基盤として統合。.....

Jun 2, 2026

181.7k

バイチュンオープンソースLance 3B：1つのモデルで図像理解と生成を同時に処理

バイチュンがオープンソースLanceを開発しました。このモデルは、わずか3Bのアクティブパラメータを持つ、ナイーブな統一マルチモーダル大規模モデルです。理解モデル（VLM）と生成モデル（DiT/ディフュージョン）の技術的境界を打ち破りました。極めて軽量ながらもすべての機能をカバーし、現在のAI業界でパラメータを増やしたり、組み立て式にモデルを作成する風潮に挑戦しています。これは技術革新の重要な突破です。

May 22, 2026

347.7k

テンセントが身体的マルチモーダル大規模モデル HY-Embodied-0.5-X を発表し、ロボットのスマートなインタラクションをサポート

テンセント Robotics X とホンユアンチームは共同で HY-Embodied-0.5-X マルチモーダル大規模モデルを開源しました。このモデルはロボットの身体的タスクに特化して最適化されています。MoT-2Bアーキテクチャに基づき、「見る」「考える」「行う」能力を強化しており、細かい操作、空間推論、動作予測、リスク判断において優れた性能を発揮します。このシリーズには MoT-2B および MoE-32B の2つのバージョンがあり、現実的な環境でのロボットの知能的なインターフェースレベルを向上させることを目的としています。

Apr 27, 2026

242.5k

アリババのATH事業グループが開発したハッピーハースモデルがAI動画ランキングで首位に、EloスコアでSeedance2.0を上回る

国内のマルチモーダルモデル「HappyHorse-1.0」は、テキストから動画への評価において1332点を獲得し、ビーティーのモデルに約60ポイントの差をつけて首位に輝きました。その海外のSNSアカウントの最初のフォロワーはアリババであり、その開発背景を示唆しています。

Apr 10, 2026

226.6k

Qwen3.5-Omniが画期的にリリースされました：215項目のSOTAにより、全感覚AI時代を切り開く

Tongyi Labはマルチモーダル大規模モデルであるQwen3.5-Omniを発表しました。このモデルは理解力、インタラクティブ性、およびタスク実行能力において飛躍的な進化を遂げ、AIが「スクリーンアシスタント」から「物理世界を理解するインテリジェントなエージェント」へと進化するきっかけとなります。このモデルは「ネイティブフルモーダル」アーキテクチャを採用し、テキスト、画像、音声、ビデオの入力をシームレスに処理でき、音声・動画分析、推論、会話および翻訳のテストで優れたパフォーマンスを示します。

Mar 31, 2026

400.0k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご