【AI日報】へようこそ!ここは毎日人工智能の世界を探索するためのガイドです。毎日、AI分野の注目ニュースをお届けし、開発者に焦点を当てて、技術トレンドや革新的なAI製品の応用を理解するお手伝いをします。

新規のAI製品:詳しく見るhttps://app.aibase.com/zh

1、MiniMax Music 2.5が正式リリース:AI音楽の「コントロール」と「リアルさ」の两大課題を解決

MiniMax Music 2.5のリリースは、AI音楽創作における制御性とリアルさの大きな進歩を示しています。段落レベルでの強力な制御と物理レベルでの高保真技術により、このバージョンはクリエイターにより正確な音楽制作ツールを提供し、中国語市場向けに深く最適化されており、中国語音楽の表現力とスムーズさを向上させました。

image.png

【AiBase要約:】

🎵 全体の構造を制御:14種類の音楽構造タグをサポートし、AIによる作成が「ランダム生成」から「正確な指揮」に変わります。

🎤 真実の声質:細かいトーンや震えの表現をサポートし、男女対唱における自然な協調性と和声の階層を備えています。

🎹 プロ級ミキシング:100以上の楽器音色を内蔵し、スタイルに自動的に適応するミキシング能力を持ち、スタジオレベルの音声出力を実現します。

2、アリババ・リンボウが世界モデルLingBot-Worldを開源:高精細で高動的、ミリ秒単位のリアルタイムインタラクション

アリババ・リンボウテクノロジーは世界モデルLingBot-Worldを開源しました。このモデルはビデオ品質、ダイナミック度、長時間の一貫性、インタラクティブ能力において優れた性能を発揮しており、身体知能、自律走行、ゲーム開発のために高精細なデジタル練習場を提供します。

image.png

【AiBase要約:】

🌍 LingBot-Worldは高精細で高動的な特徴を持っており、10分間連続して安定した生成が可能です。

🕹️ 16FPSの生成処理と1秒以内のエンド・ツー・エンドのインタラクション遅延を実現し、リアルタイム制御が可能です。

🔄 Zero-shotの汎化能力をサポートしており、実際の写真またはゲームスクリーンショットを入力するだけで、インタラクティブなビデオストリームを生成できます。

3、グーグル Gemini 3.5がリーク:コード生成能力が3000行以上

グーグル Gemini 3.5のリーク情報は、プログラミング分野での重大な突破を明らかにしています。これは、一度の提示で3000行のコードを生成できる能力と、深い推論アーキテクチャの導入を含んでいます。また、さまざまな使用状況に対応する専門モデルが存在し、このモデルの強力な機能と潜在的な影響力を示しています。

image.png

【AiBase要約:】

🐰 Snow Bunnyプロジェクト:内部モデルSnow Bunnyは非常に強いアプリケーション構築能力を持ち、一度に3000行のコードを生成できます。

🧠 深い推論アーキテクチャ:「システム2」の思考とDeep Thinkスイッチを導入し、複雑な論理問題の解決率を大幅に向上させています。

🚀 多モデル協働:Fierce Falcon(速度と論理)およびGhost Falcon(マルチモーダル創作)という2つの専門モデルについても言及されています。

4、Kimi K2.5 Agentが効率的なオフィス作業を支援:Excel、Word、PDFの全面アップグレード

Kimi K2.5のリリースにより、月之暗面傘下のKimi Agentはオフィス機能において大きな進歩を遂げました。Excel、Word、PDF、PPTのコア機能を深く処理し、プロフェッショナルな作業成果を提供します。今回のアップグレードにより、元々数時間乃至数日かかるタスクが数分で完了し、データモデリング、スマートレビュー、ビジュアルストーリーテリングなどの高度なオフィスシーンを解放します。ユーザーは複雑な操作なしで効率的に作業を完了できます。

image.png

【AiBase要約:】

📊 モデルアップグレード:最新のKimi K2.5を基盤として、Agentのオフィス機能は「読解と要約」から「コアな創作とレイアウト」へと進化しました。

💼 Officeを精通:Excelデータモデリング、Wordのレビューとコメント、PPTの論理生成、PDFのビジュアルデザインを完全にカバーしています。

⚡ 効率の平等:数日の機械的な労働を分単位に短縮し、非専門家でもプロフェッショナルなオフィス文書を作成できるようにします。

5、産業AIの新進歩:マッシュルボリュームの「Lingzhi」垂直大規模モデルが国家ネット信頼局の登録を通過

マッシュルボリュームの「Lingzhi AI」垂直大規模モデルは国家ネット信頼局の生成型AIサービス登録を通過し、産業公輔エネルギー分野でのリーダーシップを示しています。このモデルは4つの核心能力シーンに焦点を当てており、包括的なQ&A、正確な予測、リアルタイム診断、最適化制御を含み、強力な専門性と実用性を示しています。

image.png

【AiBase要約:】

🧠 インテリジェントQ&A:複雑な産業シーンで即時の専門知識の回答を提供します。

📈 正確な予測:過去データ分析を通じて、設備の運転トレンドとエネルギー消費を予測します。

🔧 リアルタイム診断:産業機器の障害を迅速に特定し、保守効率を向上させます。

6、コンソン・ワンウェイのSkyReels-V3オープンソース:マルチモーダルビデオ生成技術の突破

コンソン・ワンウェイのSkyReels-V3がオープンソース化され、ビデオ生成技術が高精細かつマルチモーダルな新時代に入りました。単一のモデル構造により、参照画像からのビデオ変換、ビデオの延長、および音声駆動の仮想キャラクターの三大コア能力が深く統合されました。

image.png

【AiBase要約:】

🎥 参照画像からビデオへの変換(I2V):1~4枚の参照画像を入力でき、主体のアイデンティティと空間構図を正確に保持します。

🎞 ビデオの延長機能:「カメラチェンジ延長モード」を導入し、論理的な「物語の拡張」を実現します。

🎙 音声駆動の仮想キャラクター:非常に高い口形同期率を実現し、分単位の長ビデオ生成と多役者のインタラクションをサポートします。

詳細リンク:https://github.com/SkyworkAI/SkyReels-V3

7、コンソン・テンゴンが音楽大規模モデルMureka V8を発表:「生成可能」から「公開可能」への飛躍

コンソン・テンゴンの音楽大規模モデルMureka V8のリリースは、AI音楽技術の大きな進歩を示しています。このモデルはMusiCoT技術体系に基づいており、人間の創作論理に近い音楽生成を実現し、音楽性、編曲完成度、人声表現、音質の質感を向上させ、AI音楽が「生成可能」から「公開可能」になりました。

image.png

【AiBase要約:】

🎵 技術的突破:MusiCoT技術体系を基盤として、人間の創作論理を模倣する深いモデリングを実現します。

🎹 成品レベルの質感:メロディー、人声、編曲などの次元で全体的に向上し、作品を「公開可能」レベルに達させます。

🛠 創作協働:ユーザーは自然言語と参考素材を用いて繰り返し調整・イテレーションを行うことができ、ランダム生成ではなくなります。

詳細リンク:https://www.mureka.ai/ https://www.mureka.cn/

8、サムスン公式発表:次のARメガネは2026年に発売予定、マルチモーダルAIを主軸に

サムスンは次のARメガネが2026年に発売されることが確認され、マルチモーダルAIを主軸に据えており、主な特徴はスマート補助、軽量設計、そして先進的なハードウェア構成です。

image.png

【AiBase要約:】

🧠 スマート補助:音声、視覚、多様なインターフェース入力を通じて、没入型のスマート補助サービスを提供します。

👓 軽量設計:通常のメガネに似た外観で、日常的な着用の快適さを確保します。

⚙ ハードウェア仕様:クアルコムAR1チップセットを搭載し、1200万画素のオートフォーカスカメラを備えています。