AIニュース：音声を再現可能なMiniMax Speech 2.6がリリース；TikTokがAI編集ツール「Smart Split」をリリース；Cursor 2.0がリリース

【AIニュース】へようこそ！ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野の注目コンテンツをお届けし、開発者に焦点を当てて技術トレンドや革新的なAI製品の応用を理解するお手伝いをいたします。

新鮮なAI製品：クリックして詳細を見る：https://app.aibase.com/zh

1、遅延が250ミリ秒未満！MiniMax Speech 2.6がリリースされ、Fluent LoRAで任意の声をワンクリックで再現可能に。音声合成がリアルタイムインタラクション時代へ進化

MiniMax Speech 2.6は低遅延と音声再現技術により、音声合成がリアルタイムインタラクション時代へと進化しました。

【AiBaseの要約:】
🎙️ Fluent LoRA技術により、30秒の音声で声をクローンできます。
⏱️ エンド・トゥ・エンドの遅延が250ミリ秒未満となり、人間の会話のペースに近づきました。
🌐 教育、カスタマーサービス、スマートハードウェアなど複数のシナリオに対応しています。

2、アリババグループが「金融AI脳」を構築し、国際標準の優れた事例として選出

本記事では、アリババグループが寧波銀行と共同で構築したAgentar知識工学KBaseのケースについて紹介しています。このプロジェクトは国際標準の金融アプリケーションにおける優れた事例として選出されました。知識工学技術を通じて金融機関の知識の孤島問題を解決し、知的判断システムを構築することで、サービス効率と正確性を大幅に向上させました。また、強力な説明性を持ち、金融業界のスマート化アップグレードに新たな基準を示しています。

【AiBaseの要約:】
🧠 Agentar知識工学プラットフォームは多様な異種データの全ライフサイクル管理を実現します。
💡 プラットフォームは「計画-検索-推論」メカニズムによって知識の品質とAIの論理推論能力を向上させます。
🔒 強い説明性により生成型AIを金融分野での安全かつ規制遵守可能な利用を保障します。

3、智源がEmu3.5大モデルをリリース：「次の状態予測」によりマルチモーダルインテリジェンスを再構築し、身体操作能力が業界を驚かす

智源はEmu3.5大モデルをリリースし、「次の状態予測」によりマルチモーダルインテリジェンスを再構築し、強力な身体操作能力を持つことで、AIが感知と理解から知的操作への重要な一歩を踏み出しました。

【AiBaseの要約:】
🧠 Emu3.5は自己回帰型「次の状態予測（NSP）」フレームワークを導入し、マルチモーダルシーケンスモデリングの突破を実現しました。
🖼️ テキストと画像の協調生成、インテリジェントな画像編集および時空間動的推論をサポートし、マルチモーダル操作能力を向上させます。
🔄 情報の孤島を打ち破り、テキスト、視覚および動作などのモーダルを統一的に符号化し、マルチモーダル間の自由な切り替えと協調推論を実現します。

4、Cursor 2.0が衝撃的なリリース！自社モデルComposerが4倍速く、8つのAIエージェントが並列で作業し、開発者の効率が「核爆発級」に向上

Cursor 2.0のリリースは、インテリジェント補完プラグインからマルチエージェント協働開発プラットフォームへの范式の飛躍を示し、自社モデルComposerとマルチエージェントインターフェースにより開発効率と品質を顕著に向上させました。

【AiBaseの要約:】
🧠 Composerモデルはエージェント形式のコーディング専用に設計されており、強化学習と混合エキスパートアーキテクチャを使用し、反応速度を4倍に向上させました。
ParallelGroup 複数のAIエージェントが並列で作業し、独立したタスク処理をサポートし、複雑なプロジェクトの開発効率を向上させます。
🔄 全プロセスの自動機能によりコードレビュー、テスト、実行を統合し、上下文の切り替えを減らし、開発者の集中力を高めます。

5、xAIがGrok Imagine iOS版をアップグレード：ビデオ生成とヒントのリミックスを追加

xAIは、Grok ImagineツールのiOS版にビデオ生成功能を追加すると発表しました。ユーザーはテキストまたは画像のヒントを使って高解像度の動画を生成でき、コンテンツの要約から直接ヒントをリミックスすることが可能です。この機能はAurora/Grokコアモデルに基づいて最適化され、操作の滑らかさが向上しており、ショートフィルム、広告、クリエイティブコンテンツに適しています。

【AiBaseの要約:】
🎥 新たにビデオ生成功能を追加し、テキストまたは画像のヒントで高解像度の動画を生成できます。
🔄 ヒントリミックス機構により創作のハードルを下げ、迅速な試行錯誤が可能になります。
📱 iOS版を優先して更新し、Android版およびウェブ版は後ほど対応予定で、モバイルAI創作能力を強化します。

6、OpenAIが新型セキュリティモデルgpt-oss-safeguardをリリース：AI分野でのリスクへの柔軟な対応を支援

OpenAIがリリースしたgpt-oss-safeguardシリーズモデルは、AIセキュリティ分野において高い柔軟性とカスタマイズ性を提供し、開発者が設定したセキュリティポリシーに従って分類を行い、推論理由を提示します。しかし、これらのモデルは処理速度やリソース消費において一定の制限があり、一部のシナリオでは従来の分類器よりも性能が劣る場合があります。

【AiBaseの要約:】
🛡️ OpenAIは、gpt-oss-safeguard-120bおよびgpt-oss-safeguard-20bという2種類の新しいセキュリティモデルをリリースしました。セキュリティポリシーを柔軟にカスタマイズできます。
⚙️ 新しいモデルは、入力されたセキュリティポリシーに基づいてユーザーのメッセージや会話を分類し、推論の理由を提示します。
📊 尽管新モデルには利点があるものの、一部の状況では従来の分類器の方が効果的であり、新モデルはリソースを多く消費します。
詳細リンク:https://huggingface.co/collections/openai/gpt-oss-safeguard

7、TikTokがAI編集新ツール「Smart Split」をリリース：クリエイターが簡単に編集とコンテンツ企画ができる

TikTokはアメリカのクリエイターサミットで、AI駆動の動画編集ツール「Smart Split」、コンテンツ企画ツール「AI Outline」、およびアップデートされたクリエイター収益分配政策の3つの新機能を発表しました。これらはクリエイターの作業効率と収益化能力を向上させるために設計されています。

【AiBaseの要約:】
🎥 TikTokがAI編集ツール「Smart Split」をリリースし、短編動画と字幕を自動生成します。
📝 新たなコンテンツ企画ツール「AI Outline」は、クリエイターが簡単に動画のアウトラインを作成できるようにします。
💰 改訂された収益分配政策により、優れたクリエイターは最大90%の収益を得ることができます。

8、マイクロソフトがAgent Lightningをリリース：強化学習で大規模言語モデルの訓練を効率化する新しいAIフレームワーク

マイクロソフトがリリースしたAgent Lightningは、強化学習を用いて多エージェントシステムを最適化するオープンソースフレームワークであり、既存のアーキテクチャを再構築することなく、大規模言語モデルのパフォーマンスを向上させます。

【AiBaseの要約:】
🧠 Agent Lightningはエージェントを部分観測マルコフ決定過程としてモデル化し、戦略のパフォーマンスを向上させます。
🚀 このフレームワークは、既存のシステムを再構築することなく、多エージェントシステムを最適化し、トレーニング世代の非依存性を実現します。
📈 実験結果によると、テキストからSQLへの変換、検索増強生成、数学質問応答のタスクにおいて、大きなパフォーマンス向上が確認されました。
詳細リンク:https://arxiv.org/abs/2508.03680v1

AIニュース：音声を再現可能なMiniMax Speech 2.6がリリース；TikTokがAI編集ツール「Smart Split」をリリース；Cursor 2.0がリリース

関連推奨

小米が全ラウンド音声大モデル MiMo-V2.5 を発表。TTSで1つの文で新しいボイドを生成可能。ASRは方言と多言語の混在に対応し、オープンソースをサポート

ロボットが話せるようになった！ZhiyuanとMiniMaxが協力して、一人ひとりに合わせた特注の人物設定をカスタム制作

Qwen3-TTSのアップグレード：多様なボイスで音声合成をより自然に

口を開ければキャラクター！アリババのQwen3-TTS登場：49種類のボーカル＋10言語9方言 WERは主流の商用モデルを圧倒

250ミリ秒以下の遅延！MiniMax Speech 2.6リリース　Fluent LoRAで任意の声をワンクリックで再現　音声合成がリアルタイムインタラクティブ時代へ

AIニュース：音声を再現可能なMiniMax Speech 2.6がリリース；TikTokがAI編集ツール「Smart Split」をリリース；Cursor 2.0がリリース

関連推奨

小米が全ラウンド音声大モデル MiMo-V2.5 を発表。TTSで1つの文で新しいボイドを生成可能。ASRは方言と多言語の混在に対応し、オープンソースをサポート

ロボットが話せるようになった！ZhiyuanとMiniMaxが協力して、一人ひとりに合わせた特注の人物設定をカスタム制作

Qwen3-TTSのアップグレード：多様なボイスで音声合成をより自然に

口を開ければキャラクター！アリババのQwen3-TTS登場：49種類のボーカル＋10言語9方言 WERは主流の商用モデルを圧倒

250ミリ秒以下の遅延！MiniMax Speech 2.6リリース Fluent LoRAで任意の声をワンクリックで再現 音声合成がリアルタイムインタラクティブ時代へ

250ミリ秒以下の遅延！MiniMax Speech 2.6リリース　Fluent LoRAで任意の声をワンクリックで再現　音声合成がリアルタイムインタラクティブ時代へ