AIニュース：アリババがマルチモーダルモデル「Qwen3-Omni」を発表；グーグルがAP2プロトコルを公開；バイドゥがQianfan-VLモデルを発表

【AI日報】へようこそ！ここは毎日人工知能世界を探索するためのガイドです。毎日、AI分野のホットな情報をご提供し、開発者に焦点を当て、技術トレンドやイノベーティブなAI製品アプリケーションを理解するお手伝いをいたします。

新鮮なAI製品クリックして詳細を確認：https://app.aibase.com/zh

1、アリババクラウドが世界初の全モードAIモデル「Qwen3-Omni」をリリース。テキスト、画像、音声、動画の統一処理を実現

アリババクラウドは「Qwen3-Omni」という世界で最初のネイティブなエンド・トゥ・エンドの全モードAIモデルを発表しました。このモデルはテキスト、画像、音声、および動画の統一処理をサポートしています。複数の分野で跨モードの優れた性能を示し、オープンソース化されており、グローバルユーザーの多言語ニーズに対応しています。

【AiBase要約:】
🌟 Qwen3-Omniは世界で最初のネイティブなエンド・トゥ・エンドの全モードAIモデルで、テキスト、画像、音声、および動画の統一処理をサポートしています。
🌐 モデルは119種類のテキスト言語と19種類の音声入力をサポートしており、グローバルユーザーの多言語ニーズに対応しています。
🖼️ 新たにリリースされた「Qwen-Image-Edit-2509」は複数の画像編集をサポートし、編集の一貫性と効果を著しく向上させています。
詳細リンク:https://github.com/QwenLM/Qwen3-Omni huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

2、P画像の悩みから卒業！アリババのQwen-Imageによる多画像編集機能でプロ級の広告ビデオを作成可能

記事では、アリババ傘下のAI画像編集ツール「Qwen-Image」の重要な機能アップデートについて紹介しています。これには、多画像編集機能の追加、ControlNetキーポイントマップ技術の導入、および模因制作への応用拡大が含まれており、ECおよびデジタルマーケティング業界により効率的な解決策を提供します。

【AiBase要約:】
🖼️ 多画像編集機能を追加し、人＋人、人＋製品、人＋シーンの柔軟な組み合わせをサポートしています。
⚙️ ControlNetキーポイントマップ機能を導入し、人物ポーズの制御精度を向上させました。
🛒 模因制作への応用拡大により、ECおよびマーケティング業界を支援します。
詳細リンク:https://chat.qwen.ai/?inputFeature=image_edit

3、百度がQianfan-VLモデルをリリース。さまざまなサイズのモデルで異なるシナリオに適応

百度スマートクラウドの千帆チームは、新しい視覚認識モデル「Qianfan-VL」をリリースしました。このモデルには3B、8B、70Bの3つのサイズがあり、企業向けのマルチモーダルアプリケーションに対して深く最適化されています。OCR、教育場面、数学問題解決において優れた性能を発揮し、ベンチマークテストで優れた汎用性と特定タスクの優れたパフォーマンスを示しています。

【AiBase要約:】
🧠 異なるシナリオに適応するさまざまなサイズのモデル
📊 8Bおよび70Bモデルは思考および推論能力を持っています
📄 OCRおよび文書理解における優れたパフォーマンス
詳細リンク:https://baidubce.github.io/Qianfan-VL/

4、グーグルがAP2プロトコルをリリース。PayPalと協力してAI決済の新しい時代を開く

グーグルがリリースしたAP2プロトコルは、AI決済に安全で信頼性のあるフレームワークを提供します。認証トークンメカニズムを通じて取引の合法性和安全性を確保し、PayPalとの協力によってAIの決済分野での革新と応用を推進します。

【AiBase要約:】
🛒 AP2プロトコルはAI決済に安全な認証メカニズムを提供し、取引の合法性を確保します。
🤝 グーグルとPayPalの協力により、AIの決済分野での実際の応用を推進します。
🔒 認証トークンシステムにより責任の明確化がされ、取引の透明性が向上します。
詳細リンク:https://github.com/google-agentic-commerce/AP2

5、アップルが画像生成プラットフォーム「Image Playground」を拡張：より多くのサードパーティAIモデルを導入予定

アップルはmacOS Tahoe26、iPadOS26、iOS26で「Image Playground」を大幅に更新し、画像生成モデルとしてChatGPTを導入しました。また、GoogleのGemini2.5Flash Imageなどの他のサードパーティモデルもサポートする予定です。

【AiBase要約:】
🍎 アップルが「Image Playground」を拡張し、OpenAIやGoogleのGemini2.5Flash ImageなどのサードパーティAIモデルをサポートします。
⚙️ 「遅延の推定」指標と「ブランド識別子」の追加により、アップルがモデル選択メカニズムを最適化していることが示されています。
🔒 アップルは外部パートナーと協力することを好む傾向があり、オープンソースモデルの直接サポートよりも画像生成ツールのセキュリティを確保する目的があります。

6、一撃で学習機に！百度検索がAI学習パートナーをリリース

百度がAI学習パートナーをリリースし、通常の携帯電話を学習機に変換し、学生に正確な練習、会話トレーニングなどの機能を提供し、教育の公平性とリソースの普及を支援します。

【AiBase要約:】
📚 AI学習パートナーはAI技術により通常の携帯電話を学習機に変換し、教育の公平性を向上させます。
🗣️ AI会話、作文添削などのツールを提供し、生徒の個別学習を支援します。
🌍 百度教育チームは文心4.5などの技術を使用して教育リソースの統合と普及を推進しています。

7、DingTalk AIテーブルアシスタントが正式リリース：一言でテーブルを作成し、企業向けのAIアプリケーションプラットフォームを構築

DingTalkはAIテーブルアシスタントをリリースし、AIテーブルをAI時代のアプリケーション作成プラットフォームにアップグレードしました。最新バージョンにアップデートすれば、この新機能を体験できます。AIテーブルアシスタントは自然言語で考えを記述し、テーブル、自動ワークフロー、データ分析ダッシュボードを自動生成できるため、使用のハードルを大幅に低下させます。

【AiBase要約:】
✨ AIテーブルアシスタントは自然言語で考えを記述し、テーブル、自動ワークフロー、データ分析ダッシュボードを自動生成します。
🚀 フィールドAgentを導入し、30種類のAgentを追加し、AIビデオ理解、デジタル人間などのマルチモーダルAI能力をサポートします。
🌐 プラットフォーム間のワークフローをサポートし、百煉、Cozeなどのプラットフォームワークフローを新たにサポートし、クロスプラットフォームのデータ集計と分析を実現します。

8、DeepSeek-V3.1-Terminusが衝撃的リリース！パフォーマンスが全面的に向上し、深層推論能力が顕著に強化されました

DeepSeekはDeepSeek-V3.1-Terminusモデルをリリースし、それをオープンソース化しました。このモデルは元のモデルに基づいて言語の不一致と異常文字の問題を修正し、プログラミングと検索エージェントのパフォーマンスを最適化しました。ベンチマークテストの結果によると、パフォーマンスは0.2％〜36.5％向上し、特に高難易度の知識、マルチモーダルおよび深層推論の分野で突出した性能を示しました。

【AiBase要約:】
🧠 DeepSeek-V3.1-Terminusモデルのパフォーマンスは全体的に向上し、向上幅は0.2％〜36.5％です。
🚀 プログラミングと検索エージェントのパフォーマンスを重点的に最適化し、旧バージョンの言語の不一致問題を解決しました。
🔍 HLEテストでは特に優れたパフォーマンスを示し、強力な深層推論とマルチモーダル処理能力を示しています。
詳細リンク:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

9、Kimi Agent会員サービスが驚きの登場！寄付は9か月のVIPに変わる、49元で超お得なAI深い研究

Kimiは新たなAgent会員サービスをリリースし、早期の寄付ユーザーに追加の特典を提供し、音楽のテンポで名付けられた会員制度を通してブランドのクリエイティブを示しました。深層研究機能は独自モデルに基づいており、専門的な洞察を提供し、AIアシスタントが知能代理へと進化するのを促進します。

【AiBase要約:】
✨ KimiはAgent会員サービスをリリースし、寄付ユーザーには追加の会員期間を提供します。
🎵 会員制度はクラシック音楽のテンポ用語で命名され、芸術とテクノロジーが融合しています。
🔍 深層研究機能は独自モデルに基づいており、多角的な観点分析と認知発見を提供します。

10、世界初の汎用具身型インテリジェントモデルがオープンソース化！Zhiyuan RoboticsのGO-1が衝撃的登場

Zhiyuan Roboticsは、GO-1という汎用具身型ベースモデルを完全にオープンソース化すると発表しました。これは世界初のViLLAアーキテクチャを採用した具身型インテリジェントモデルであり、複雑なタスクを理解し実行できます。この取り組みにより、具身型インテリジェントの応用と研究が推進され、技術の障壁が低下し、より多くの開発者の参加を引きつけ、異なる分野でのイノベーションと協力が促進されます。

【AiBase要約:】
🤖 GO-1は世界初のViLLAアーキテクチャを採用した具身型インテリジェントモデルで、視覚、言語、潜在的な動作能力を統合しています。
💡 GO-1のオープンソース化により、具身型インテリジェントの応用と研究が推進され、技術の障壁が低下します。
🌐 Zhiyuan Roboticsは、より多くの開発者が具身型インテリジェントエコシステムに参加し、異なる分野でのイノベーションと協力を促進したいと考えています。

AIニュース：アリババがマルチモーダルモデル「Qwen3-Omni」を発表；グーグルがAP2プロトコルを公開；バイドゥがQianfan-VLモデルを発表

関連推奨

Grokに建設の本能が芽生える：口で話すだけでドメイン付きのウェブサイトやアプリが生まれる。xAIはチャットボックスを開発台に向けた

ChatGPTの週間アクティブユーザーが10億に近づく：7か月遅れたが、リリースから4年未満

AIに感謝する初のシステムアップデート：ClaudeとCodexが複数の脆弱性を発見

AIが脆弱性の発見スピードを飛躍的に向上させ、今年のセキュリティ欠陥数は予想以上に倍増する。ハッカーも加速して追いかけてくる

中国製GPUに新たな戦力が加わる：モアーラインが2.8兆パラメータのKimi K3 MUSAスタックでオープンソース大規模モデルを実行