【AIニュース】へようこそ!毎日、人工知能の世界を探索するためのガイドです。毎日、AI分野の注目ニュースをお届けし、開発者に焦点を当て、技術トレンドや革新的なAI製品の応用を理解するお手伝いをします。

新鮮なAI製品:クリックして詳細を確認https://app.aibase.com/zh

1. アリババのQwenアプリが公測開始、ChatGPTと全面的に競争

この記事では、アリババがリリースしたQwenアプリについて紹介しています。このアプリはQwen3モデルに基づいており、ChatGPTとの全面的な競争を目的としています。Qwenアプリのベータ版は現在、主要なアプリストアで利用可能で、国際版も計画されています。さらに、Qwen3-Maxの性能はGPT5などの国際モデルを上回り、世界トップ3にランクインしています。

image.png

【AiBase要約:】

🧠 アリババがQwenアプリをリリースし、Qwen3モデルを基盤にChatGPTと競争。

🚀 Qwenアプリのベータ版がリリースされ、国際版の展開を目指す。

📈 Qwen3-Maxの性能はGPT5を上回り、世界トップ3に。

2. Gemini Veo 3.1が複数画像を参照できる機能を追加し、3つの要素を一度に合成する動画を作成

グーグルはGemini Pro/Ultraのサブスクリプションユーザー向けにVeo 3.1ビデオモデルを配信しました。「Ingredients to Video」モードが新たに追加され、3枚の参考画像を同時にアップロードし、人物、シーン、スタイルの特徴を抽出して8秒間の1080p動画に統合することが可能です。この機能により、動画生成の多様性と品質が向上し、キャラクターの一貫性と光の連続性が維持されます。

image.png

【AiBase要約:】

🌟 「Ingredients to Video」モードを追加し、3枚の参考画像から動画を生成。

🎨 動画にはSynthIDの非表示水印が付与され、著作権保護が強化。

🔊 オリジナル環境音を同期して出力し、動画の没入感を高めます。

3. スーパー小愛AI大規模モデル「自在修整」リリース:一言でプロ級写真を瞬時に作成

小米はv7.8.50バージョンのスーパーアイ・エーを更新し、「自在修整」機能を追加しました。ユーザーは自然言語の指示を使用してアルバムのAIモデルを呼び出し、自動的に画像編集を行うことができます。この機能はグローバルなマルチモーダル相互作用をサポートし、画面とカメラの映像を認識して複雑な操作チェーンを実行できます。

image.png

【AiBase要約:】

📱 スーパー小愛に「自在修整」機能を追加し、自然言語の指示で自動画像編集。

📷 グローバルなマルチモーダル相互作用をサポートし、画面およびカメラの映像を認識し複雑な操作チェーンを実行。

🖼️ 7Bマルチモーダル大規模モデルを基盤にし、ローカルで推論可能。デフォルトで水印付きで出力し、元の画像のバックアップを保持。

4. 小米が7BマルチモーダルモデルMiMo-VLをオープンソース化し、AIアシスタントMilocoをリリース

小米はHugging FaceとGitHubで7Bパラメータのマルチモーダル大規模モデル「Xiaomi-MiMo-VL-Miloco-7B-GGUF」を同時リリースし、このモデルを基盤としたスマートアシスタント「Xiaomi Miloco」をリリースしました。Milocoはミーハイカメラを通じてユーザーの行動やジェスチャーを認識し、スマートホーム機器と連携させることができます。また、Home Assistantプロトコルにも対応しています。このモデルは非商用オープンソースライセンスを使用しており、NVIDIA GPUとDocker環境を備えたWindowsまたはLinuxマシン上でワンクリックでデプロイ可能です。

image.png

【AiBase要約:】

🚀 小米が7Bパラメータのマルチモーダルモデル「Xiaomi-MiMo-VL-Miloco-7B-GGUF」をリリース。

💡 スマートアシスタント「Xiaomi Miloco」はユーザーの行動やジェスチャーを認識し、スマートホーム機器と連携。

🔒 モデルは非商用オープンソースライセンスを使用し、NVIDIA GPUとDocker環境でのデプロイをサポート。

5. Google FlowにNano Bananaモデルを統合し、画像の背景除去を一括で動画素材に出力

GoogleはAI映画ツールFlowに画像編集モジュールを追加し、Gemini2.5Flash画像モデル(通称:Nano Banana)を深く統合しました。自然言語で背景除去、主体分離、シーン置換を実現でき、直接タイムラインにドラッグして8秒のダイナミックショットを生成できます。この機能はGemini無料版以上のユーザー向けに提供されており、価格は1枚あたり0.039ドル、企業向けVertex AIも同時にリリースされました。

image.png

【AiBase要約:】

🔥 Gemini2.5Flash画像モデルを統合し、自然言語で画像編集を制御。

💡 背景除去、主体分離、シーン置換をサポートし、動画制作効率を向上。

🌐 APIバッチインターフェースを提供し、短時間動画、ECポスターなど高生産性シーンをターゲット。

6. 新世代マルチモーダルAI DeepEyesV2:スマートツールでより大きなモデルを上回る能力を発揮

DeepEyesV2は研究者によって開発されたマルチモーダルAIモデルであり、画像分析、コード実行、ネットワーク検索が可能です。外部ツールをスマートに活用し、複数のタスクで優れた結果を示し、場合によってはより大きなモデルを上回ることもあります。

image.png

【AiBase要約:】

🌟 DeepEyesV2はスマートツールを使ってマルチモーダルタスクのパフォーマンスを向上させ、大きなモデルを上回ります。

🔧 2段階のトレーニングプロセスを採用し、画像理解とツール使用を組み合わせています。

📈 複数のベンチマークテストで優れた結果を示し、小さなモデルの潜在能力を示しています。

詳細リンク:https://arxiv.org/abs/2511.05271

7. NotebookLMが画像インポートをサポートし、板書が検索可能な知識ベースに変換

グーグルはNotebookLMの新機能をリリースし、黒板の板書、教科書のスキャンページ、街頭の表などをアップロードできるようにしました。OCRと意味解析により、自然言語で検索が可能になります。この機能は全プラットフォームで無料で利用可能で、今後はプライバシー保護のためのローカル処理オプションが追加される予定です。

image.png

【AiBase要約:】

📷 画像データソースをサポートし、ノート管理の効率を向上。

🧠 多モーダルモデルが手書きと印刷された内容を識別し、テーブル構造を抽出。

🔍 画像の内容を自然言語で検索可能にし、情報取得能力を強化。

8. JetBrainsがAIコード最適化エンジンのベンチマークテストプラットフォームDPAI Arenaをリリース

JetBrainsはDPAI Arenaという、最初のオープン型で、マルチ言語、マルチフレームワーク、マルチワークフローに対応したAIコード最適化エンジンのベンチマークテストプラットフォームをリリースしました。このプラットフォームは、ソフトウェア開発におけるAIツールの効率を評価することを目的としており、複数のプログラミング言語とワークフローをサポートし、公平で再現可能な方法でAIツールのパフォーマンスを比較することができます。

image.png

【AiBase要約:】

🌟 DPAI Arenaは業界初のオープン型AIコード最適化エンジンベンチマークテストプラットフォームで、AIツールのソフトウェア開発における効率を評価することを目的としています。

🛠️ このプラットフォームは複数のプログラミング言語とワークフローをサポートし、AIツールのパフォーマンスを公平かつ再現可能な方法で比較できます。

🤝 JetBrainsはこのプロジェクトをLinux Foundationに移管し、より広範な技術指導と将来の発展を促進する予定です。

詳細リンク:https://dpaia.dev/