AIニュース：小米が初めてのネイティブなエンドツーエンド音声アートificial Intelligenceモデルをオープンソース化；Tongyi Wanxiang Wan2.2-Animateが正式にオープンソース化；Suno v5が近日公開

【AIデイリーニュース】へようこそ！ここは毎日、人工知能の世界を探索するためのガイドです。毎日、AI分野のホットな情報を紹介し、開発者に焦点を当て、技術トレンドや革新的なAI製品の応用を理解するお手伝いをいたします。

新鮮なAI製品クリックして詳細を確認：https://app.aibase.com/zh

1. 小米が初のネイティブエンドツーエンド音声大モデル「Xiaomi-MiMo-Audio」を開源

小米（スイミー）社は、初めてのネイティブエンドツーエンド音声大モデル「Xiaomi-MiMo-Audio」をオープンソース化しました。これは音声技術分野での大きな進展を示しています。このモデルは、革新的なプリトレーニングアーキテクチャと数億時間以上のトレーニングデータに基づいており、少サンプル一般化能力が優れており、複数の評価基準で他のクローズドソースモデルを上回っています。

【AiBase要約:】
🧠 音声分野において、In-Context Learningに基づく少サンプル一般化能力を初めて実現。
🚀 音声理解ベンチマーク MMAU および Big Bench Audio S2T タスクで、Google や OpenAI のクローズドソースモデルを上回る。
🔧 完全な音声プリトレーニングソリューションをオープンソース化し、Tokenizer、モデル構造、トレーニング方法、評価体系を含む。
詳細リンク:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

2. 通義万相の新たな動作生成モデル「Wan2.2-Animate」が正式オープンソース化

通義万相チームがリリースした新しい動作生成モデル「Wan2.2-Animate」は、人物の一貫性や生成品質などにおいて顕著な改善を遂げており、動作模倣とキャラクター・プレイモードの両方をサポートしており、ショートビデオ制作やアニメ制作などの分野で広く応用されています。

【AiBase要約:】
🎭 角色画像と参照動画を入力すると、モデルは動画の動作を画像のキャラクターに移すことができる。
🎭 キャラクター・プレイモードでは、動画のキャラクターを画像のキャラクターに置き換えることができる。
🖼️ モデルには独立した照明融合LoRAが設計されており、照明効果を完璧に融合させることができる。
詳細リンク:https://github.com/Wan-Video/Wan2.2

3. Suno v5音楽モデルが登場、AI音楽創作に「画期的」なアップグレード

Sunoのv5音楽モデルが間もなく公開され、AI音楽創作における画期的な進歩と見なされている。今後、人間の作曲と機械生成の境界をさらに曖昧にするだろう。

【AiBase要約:】
🎧 Suno v5音楽モデルが近日公開され、世界的注目を集めている。
💡 v5はより高度な意味制御とマルチモーダル入力機能を導入する。
📈 v4.5がリリースされた後、ユーザーが生成した作品の再生回数が何億回にも達した。

4. 生数科技が数億元の資金調達を成功、動画生成がAI商業化の新潮流を牽引

生数科技は多モーダルAI分野で顕著な進展を遂げ、数億元の資金調達に成功し、Vidu動画大モデルを通じて商業的成功を収めた。今後、動画生成技術はさらなる発展を遂げ、多くの業界に影響を与えるが、著作権や偽情報問題への対応も必要となる。

【AiBase要約:】
🎥 生数科技は数億元のAラウンドファイナンスを完了し、多モーダルAI分野に新たな突破をもたらした。
💼 Vidu動画大モデルは年間2000万ドルの収益を上げ、商業応用が広範囲に及んでいる。
🌐 動画生成技術は世界中のデジタルコンテンツ制作方法を変革するだろうが、著作権管理などの課題もある。

5. OpenAIがChatGPTのバグを修正、ユーザーのGmailデータが盗まれるのを防ぐ

記事によると、サイバーセキュリティ会社Radwareは、ChatGPTの「ディープリサーチ」機能に深刻なバグを見つけた。これはハッカーによってユーザーのGmailメールデータを盗む可能性がある。このバグにより、ハッカーは特別に作られたメールを送信し、ChatGPTがユーザーのGmailの問い合わせを処理する際に、機密情報を悪意のあるウェブサイトに送信できる。OpenAIは迅速に対応し、このバグを修正した。また、モデルのセキュリティが最優先事項であることを強調した。

【AiBase要約:】
📧 ChatGPTのバグにより、ハッカーは特別に作られたメールを使ってユーザーのGmailデータを盗むことができる。
🔒 OpenAIはバグを迅速に修正し、ユーザーの情報セキュリティを重視していることを確認した。
🛡️ 普通のセキュリティ対策ではこの種の攻撃を検出するのが難しいため、ユーザーは注意が必要だ。

6. グーグルがChromeブラウザにGeminiを導入、スマート検索体験を向上させる

グーグルはChromeブラウザにGeminiを統合し、ユーザー体験を向上させ、競争圧力を克服しようとしている。Geminiはタブ間での作業やタスクの計画機能をサポートし、グーグルの複数のアプリケーションと深く統合されている。企業ユーザーもデータ保護やプロキシ機能から恩恵を受けられる。

【AiBase要約:】
🌐 グーグルはChromeにGeminiを統合し、ユーザーのスマート検索体験を向上させている。
📅 Geminiはウェブページの内容を理解し、タブ間での作業やタスクの計画をサポートしている。
🔒 企業ユーザーもGeminiによるデータ保護とプロキシ機能から恩恵を受けている。

7. Luma AIがRay3を発表：「推論」能力で動画生成を革新、16ビット色深さをサポート

Luma AIがリリースしたRay3動画生成モデルは、HDR機能と強力な「推論」機能により、動画制作に革命をもたらし、高精度な視覚制御とプロフェッショナルなワークフローとの統合をサポートしている。

【AiBase要約:】
🎥 Ray3は10ビット、12ビット、さらには16ビットの色深さの動画を生成でき、EXRファイル形式でエクスポート可能で、プロフェッショナルなワークフローで使用できる。
🧠 Ray3は「推論」能力を持ち、複雑な指示を理解し、自身の出力品質を自己評価することで、動画の反復最適化を実現できる。
🖌️ ユーザーは画像を描いて動画の内容を制御し、これまでにない創造の自由度を提供する。

8. フランスのAI企業Mistralがオープンソース推論モデル「Magistral Small 1.2」を発表

フランスのMistral AIは、最新のオープンソース推論モデル「Magistral Small 1.2」をリリースした。このモデルは24Bパラメータを持ち、Apache2.0オープンソースライセンスで公開されている。新バージョンでは、最大128kのコンテキスト処理がサポートされ、[THINK]特殊トークンが導入され、モデルの表現力と柔軟性が向上した。さらに、マジストラル・スモール1.2は視覚エンコーダーを追加し、さまざまなフレームワークと互換性があり、開発者にとって多くの利便性を提供している。

【AiBase要約:】
🧠 Magistral Small 1.2は、24Bパラメータを持つオープンソース推論モデルであり、Apache2.0ライセンスで公開されている。
🔍 新バージョンでは[THINK]特殊トークンが導入され、モデルの表現力と柔軟性が向上した。
🖼️ 視覚エンコーダーを追加し、画像とテキストの統合タスクにおいて優位性を持つ。

9. NotionがAIエージェントを大々的にリリース！会議ノートや競合分析を自動生成、数百ページの文書を20分で処理

Notionは初めてのAIエージェントをリリースし、ユーザーのすべてのNotionページとデータベースをコンテキストとして利用し、会議ノート、分析レポート、競合評価などを自動生成する。このエージェントは強力で、ページやデータベースの作成または更新が可能であり、外部プラットフォームから操作をトリガーすることもサポートしている。カスタマイズ設定はその特徴であり、ユーザーはエージェントのアーカイブページを設定し、どのように資料を引用するか、出力スタイルなどについて指導することが可能である。

【AiBase要約:】
🧠 AIエージェントは会議ノート、分析レポート、競合評価を自動生成する。
🔄 外部プラットフォーム（Slack、メール、Google Driveなど）からエージェント操作をトリガーできる。
📝 ユーザーはエージェントのアーカイブページをカスタマイズし、行動や出力スタイルを指導できる。

10. 腾讯混元3D Studioが衝撃的な登場：3D創作が天級から分級に高速化

腾讯混元3D Studioのリリースは、3D創作効率の画期的な向上を示しており、デザイナー、ゲーム開発者、モデラーに強力なAIワークステーションを提供し、3Dアセットの生産サイクルを大幅に短縮している。

【AiBase要約:】
🧠 オリジナル3D分割アルゴリズムにより、モデル部品の自動分割が可能で、キャラクターの装飾や衣類の個別編集がサポートされている。
🎨 AI語義UV展開技術により、1〜2分で美術基準に合ったUVマップを生成し、効率を向上させる。
🔧 智能素材編集は、テキストや画像の入力により高品質なPBR質感テクスチャを生成し、正確な素材制御を実現する。
詳細リンク:https://3d.hunyuan.tencent.com/studio

AIニュース：小米が初めてのネイティブなエンドツーエンド音声アートificial Intelligenceモデルをオープンソース化；Tongyi Wanxiang Wan2.2-Animateが正式にオープンソース化；Suno v5が近日公開

関連推奨

本物の資金をかける選択！アメリカのテクノロジー大手がなぜ中国のモデルに徐々に移行したのか？

マイクロソフトがAI演算力を強化：Azureにアンソロピー・クロードモデルを全面導入、NVIDIA GB300アーキテクチャを搭載

AIの壁？米国の有名大学の卒業生が8000枚の履歴書を送っても何も得られなかった

メイドゥーがトレンドパラメーターオープンソース大モデル「LongCat-2.0」を正式に発表、1Mを超える超長文脈をネイティブサポート

コスト圧力の伝播：アマゾンがAnthropicモデルの料金体系を調整。来年からToken単位での課金に変更