Qwen3.5-Omniが画期的にリリースされました：215項目のSOTAにより、全感覚AI時代を切り開く

通義ラボは昨夜、新たなマルチモーダル大規模モデル「Qwen3.5-Omni」を正式に発表しました。前世代と比較して、このモデルは理解力、インタラクティブ性、タスク実行能力において飛躍的な進化を遂げており、AIが「スクリーン内のアシスタント」から「物理世界を理解するインテリジェントなエージェント」へと真正の転換点を迎えていることを示しています。

コアな突破: フルモードと215のSOTA

Qwen3.5-Omniは、ネイティブな「フルモード」構造を採用しており、テキスト、画像、音声、ビデオ入力をスムーズに処理できます。音声・動画分析、推論、会話、翻訳を含むテストで、このモデルは215のSOTA（業界最高）の成績を収めました。特に一般的な音声理解と認識分野では、Gemini-3.1Proを全面的に上回り、視覚およびテキスト能力は同サイズのQwen3.5モデルと同等の最高峰の水準を維持しています。

技術的深掘り: Hybrid-Attention MoE構造

モデルは古典的なThinker-Talkerの分業モードを引き継ぎながら、下位レイヤーの再構築を行いました:

Thinker（理解中枢）: Hybrid-Attention MoEにアップグレードされ、256Kの超長文脈をサポートします。これにより、最大で10時間の音声や1時間のビデオを処理でき、TMRoPE技術によって長時間の時系列情報の中でも細かい情報を正確に抽出することができます。
Talker（表現中枢）: 新しいARIA技術とRVQ符号化を導入し、重いDiT演算を置き換えました。これにより、音声出力における欠字や数字の誤読などの問題が解決され、モデルは強力なリアルタイム音声制御能力を備えています。

応用場面: Vibe Codingから音色クラウドまで

Qwen3.5-Omniの進化は、複数の画期的な応用シーンとして現れています:

自然に出現するVibe Coding: 特別な訓練を受けずに、モデルは驚くほど高いコード理解と生成能力を示し、ビデオの画面論理に基づいて直接Pythonコードやフロントエンドのプロトタイプを生成できます。
人間らしいリアルタイム対話: 意味による中断をサポートしています。咳などの雑音と本物の会話の違いを識別し、ユーザーは指示によって口調（例:「楽しくて」）や音量を調整できます。
細かいビデオ分解: 時刻付きの構造化キャプションを生成し、ビデオ中の人物の動作、背景音楽の変化、カメラの切り替えなどを正確に識別できます。
パーソナライズされた音声コピー: ユーザーはわずかな録音をアップロードするだけで、高自然度で113言語に対応した独自の「デジタル分身」を作成できます。

現在、Qwen3.5-Omniはアリババクラウドの百煉プラットフォームで利用可能で、Plus、Flash、Lightの3種類のサイズが提供されており、リアルタイム会話（Realtime）APIと魔搭コミュニティのデモも同時に公開されています。

プログラミングとGUIを両方カバー！Qwen3.7-Plus登場 11時間で自律的な開発サイクルによる本物のアプリを開発

アリババは、テキスト能力に視覚言語機能を強化したマルチモーダル大規模モデル「Qwen3.7-Plus」を発表。GUIとCLIの融合により、プロトタイプからソフトウェアエンジニアリングまでのエンドツーエンド自動化を実現し、Vision Arenaランキングで高い性能を示す。エージェント基盤として統合。.....

バイチュンオープンソースLance 3B：1つのモデルで図像理解と生成を同時に処理

バイチュンがオープンソースLanceを開発しました。このモデルは、わずか3Bのアクティブパラメータを持つ、ナイーブな統一マルチモーダル大規模モデルです。理解モデル（VLM）と生成モデル（DiT/ディフュージョン）の技術的境界を打ち破りました。極めて軽量ながらもすべての機能をカバーし、現在のAI業界でパラメータを増やしたり、組み立て式にモデルを作成する風潮に挑戦しています。これは技術革新の重要な突破です。

テンセントが身体的マルチモーダル大規模モデル HY-Embodied-0.5-X を発表し、ロボットのスマートなインタラクションをサポート

テンセント Robotics X とホンユアンチームは共同で HY-Embodied-0.5-X マルチモーダル大規模モデルを開源しました。このモデルはロボットの身体的タスクに特化して最適化されています。MoT-2Bアーキテクチャに基づき、「見る」「考える」「行う」能力を強化しており、細かい操作、空間推論、動作予測、リスク判断において優れた性能を発揮します。このシリーズには MoT-2B および MoE-32B の2つのバージョンがあり、現実的な環境でのロボットの知能的なインターフェースレベルを向上させることを目的としています。

アリババのATH事業グループが開発したハッピーハースモデルがAI動画ランキングで首位に、EloスコアでSeedance2.0を上回る

国内のマルチモーダルモデル「HappyHorse-1.0」は、テキストから動画への評価において1332点を獲得し、ビーティーのモデルに約60ポイントの差をつけて首位に輝きました。その海外のSNSアカウントの最初のフォロワーはアリババであり、その開発背景を示唆しています。

メイドゥーがネイティブマルチモーダルLongCat-Nextを発表：視覚と音声の下層統一を実現

美团が発表したLongCat-Nextは、従来の「言語基盤+プラグイン」アーキテクチャを超え、DiNA技術で画像・音声・テキストを統一トークン化し、AIの物理世界の「見る」「聞く」能力を実現、多モーダルモデリングの深い統合を達成。....