AI日報：小米開源首個原生端到端語音大模型；通義萬相Wan2.2-Animate正式開源；Suno v5即將上線

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解：https://app.aibase.com/zh

1、小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio

小米公司宣佈開源其首個原生端到端語音大模型 Xiaomi-MiMo-Audio，標誌着語音技術領域的重大突破。該模型基於創新的預訓練架構和上億小時的訓練數據，在少樣本泛化能力方面表現出色，並在多個評測基準中超越了其他閉源模型。

【AiBase提要:】
🧠 首次實現語音領域基於In-Context Learning的少樣本泛化能力。
🚀 在音頻理解基準 MMAU 和 Big Bench Audio S2T 任務中超越了 Google 和 OpenAI 的閉源模型。
🔧 開源完整的語音預訓練方案，包括 Tokenizer、模型結構、訓練方法和評測體系。
詳情鏈接:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

2、通義萬相全新動作生成模型Wan2.2-Animate正式開源

通義萬相團隊推出的全新動作生成模型 Wan2.2-Animate 在人物一致性、生成質量等方面有顯著提升，支持動作模仿和角色扮演兩種模式，廣泛應用於短視頻創作、動漫製作等領域。

【AiBase提要:】
🎭 輸入角色圖片和參考視頻，模型可將視頻動作遷移到圖片角色中。
🎭 在角色扮演模式下，模型可替換視頻中的角色爲圖片角色。
🖼️ 模型設計了獨立的光照融合 LoRA，保證光照效果完美融合。
詳情鏈接:https://github.com/Wan-Video/Wan2.2

3、Suno v5音樂模型即將登場，AI音樂創作迎來“變革性”升級

Suno的v5音樂模型即將發佈，被視爲AI音樂創作的里程碑，預計將進一步模糊人類作曲與機器生成的界限。

【AiBase提要:】
🎧 Suno v5音樂模型即將推出，引發全球關注。
💡 v5將引入更先進的語義控制和多模態輸入功能。
📈 v4.5上線後，用戶生成作品播放量突破數億次。

4、生數科技獲數億元融資，視頻生成引領AI商業化新潮流

生數科技在多模態AI領域取得顯著進展，成功獲得數億元融資，並通過Vidu視頻大模型實現了商業化的成功。未來，視頻生成技術有望進一步發展並影響多個行業，但同時也需應對版權和虛假信息等問題。

【AiBase提要:】
🎥 生數科技完成數億元A輪融資，多模態AI領域迎來新突破。
💼 Vidu視頻大模型實現2000萬美元年收入，商業化應用廣泛。
🌐 視頻生成技術將改變全球數字內容生產方式，面臨版權治理等挑戰。

5、OpenAI 修復 ChatGPT 漏洞，防止用戶 Gmail 數據被盜取

文章指出，網絡安全公司 Radware 發現了 ChatGPT 的“深度研究”功能存在嚴重漏洞，可能被黑客利用來竊取用戶的 Gmail 郵件數據。該漏洞允許黑客通過特製郵件誘導 ChatGPT 在處理用戶 Gmail 查詢時，將敏感信息發送到惡意網站。OpenAI 已迅速修復此漏洞，並強調模型的安全性是其首要任務。

【AiBase提要:】
📧 ChatGPT 漏洞允許黑客通過特製郵件竊取用戶 Gmail 數據。
🔒 OpenAI 迅速修復漏洞，並確認其對用戶信息安全的重視。
🛡️ 常規安全防護難以檢測此類攻擊，用戶需保持警惕。

6、谷歌在 Chrome 瀏覽器中引入 Gemini，助力智能搜索新體驗

谷歌將 Gemini 集成到 Chrome 瀏覽器中，以增強用戶體驗並應對競爭壓力。Gemini 支持跨選項卡工作、任務安排等功能，並與谷歌的多個應用深度整合。企業用戶也將受益於數據保護和代理功能。

【AiBase提要:】
🌐 谷歌在 Chrome 中整合 Gemini，提升用戶智能搜索體驗。
📅 Gemini 支持用戶理解網頁內容，跨選項卡工作和安排任務。
🔒 企業用戶也將享受 Gemini 帶來的數據保護和代理功能。

7、Luma AI發佈Ray3：以“推理”能力革新視頻生成，支持16位色深

Luma AI推出的Ray3視頻生成模型憑藉其HDR能力和強大的“推理”功能，爲視頻創作帶來了革命性的變化，同時支持高精度的視覺控制和專業工作流程整合。

【AiBase提要:】
🎥 Ray3支持生成10位、12位乃至16位色深的視頻，並可導出爲EXR文件格式，便於專業工作流程使用。
🧠 Ray3具備“推理”能力，能理解複雜指令並自我評估輸出質量，實現視頻迭代優化。
🖌️ 用戶可通過圖像繪製草圖控制視頻內容，提供前所未有的創作自由度。

8、法國AI公司Mistral重磅推出開源推理模型 Magistral Small 1.2

法國公司 Mistral AI 推出了其最新開源推理模型 Magistral Small 1.2，該模型擁有24B參數，並以 Apache2.0 開源許可方式發佈。新版本支持高達128k的上下文處理，引入了[THINK]特殊token，增強了模型的表現力和靈活性。同時，Magistral Small 1.2還增加了視覺編碼器，兼容多種框架，爲開發者提供了更多便利。

【AiBase提要:】
🧠 Magistral Small 1.2 是一款具有24B參數的開源推理模型，採用 Apache2.0 許可協議發佈。
🔍 新版本引入了[THINK]特殊token，提升了模型的表現力和靈活性。
🖼️ 增加了視覺編碼器，使其在圖像和文本綜合任務中更具優勢。

9、Notion重磅發佈AI智能體！自動生成會議筆記、競品分析，20分鐘處理數百頁文檔

Notion推出了首個AI智能體，能夠利用用戶所有Notion頁面和數據庫作爲上下文，自動生成會議筆記、分析報告、競品評估等。該智能體功能強大，可創建或更新頁面和數據庫，並支持從外部平臺觸發操作。個性化設置是其亮點，用戶可以爲智能體設置檔案頁面，指導其如何引用來源、輸出風格等。

【AiBase提要:】
🧠 AI智能體能自動生成會議筆記、分析報告和競品評估。
🔄 支持從外部平臺（如Slack、郵件和Google Drive）觸發智能體操作。
📝 用戶可自定義智能體的檔案頁面，指導其行爲和輸出風格。

10、騰訊混元3D Studio 震撼登場:3D 創作從天級提速至分鐘級

騰訊混元3D Studio的發佈標誌着3D創作效率的革命性提升，爲設計師、遊戲開發者和建模師提供了強大的AI工作臺，顯著縮短了3D資產生產週期。

【AiBase提要:】
🧠 原生3D分割算法實現模型部件的自動拆分，支持獨立編輯角色配飾和服裝。
🎨 AI語義UV展開技術在1-2分鐘內生成符合美術標準的UV圖，提升工作效率。
🔧 智能材質編輯支持通過文本或圖片輸入生成高質量PBR質感紋理，實現精準材質控制。
詳情鏈接:https://3d.hunyuan.tencent.com/studio

AI日報：小米開源首個原生端到端語音大模型；通義萬相Wan2.2-Animate正式開源；Suno v5即將上線

相關推薦

嚴防隱私泄露！美國擬立法禁止AI公司向數據中間商出售健康數據

坐鎮 AI 技術巔峯：DeepMind CEO 強調團隊領先地位，倡導多模態與安全並重

嚴防技術“剽竊”：Meta 叫停工程師使用 Claude 與 Codex，規避模型蒸餾風險

應對AI加速惡意軟件開發，蘋果打破慣例提前發佈iOS安全更新

Cursor正式發佈移動端AI編碼應用擺脫多屏桌面束縛

AI日報：小米開源首個原生端到端語音大模型；通義萬相Wan2.2-Animate正式開源；Suno v5即將上線

相關推薦

嚴防隱私泄露！美國擬立法禁止AI公司向數據中間商出售健康數據

坐鎮 AI 技術巔峯：DeepMind CEO 強調團隊領先地位，倡導多模態與安全並重

嚴防技術“剽竊”：Meta 叫停工程師使用 Claude 與 Codex，規避模型蒸餾風險

應對AI加速惡意軟件開發，蘋果打破慣例提前發佈iOS安全更新

Cursor正式發佈移動端AI編碼應用 擺脫多屏桌面束縛

Cursor正式發佈移動端AI編碼應用擺脫多屏桌面束縛