歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解https://app.aibase.com/zh

1、小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio

小米公司宣佈開源其首個原生端到端語音大模型 Xiaomi-MiMo-Audio,標誌着語音技術領域的重大突破。該模型基於創新的預訓練架構和上億小時的訓練數據,在少樣本泛化能力方面表現出色,並在多個評測基準中超越了其他閉源模型。

image.png

【AiBase提要:】

🧠 首次實現語音領域基於In-Context Learning的少樣本泛化能力。

🚀 在音頻理解基準 MMAU 和 Big Bench Audio S2T 任務中超越了 Google 和 OpenAI 的閉源模型。

🔧 開源完整的語音預訓練方案,包括 Tokenizer、模型結構、訓練方法和評測體系。

詳情鏈接:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

2、通義萬相全新動作生成模型Wan2.2-Animate正式開源

通義萬相團隊推出的全新動作生成模型 Wan2.2-Animate 在人物一致性、生成質量等方面有顯著提升,支持動作模仿和角色扮演兩種模式,廣泛應用於短視頻創作、動漫製作等領域。

image.png

【AiBase提要:】

🎭 輸入角色圖片和參考視頻,模型可將視頻動作遷移到圖片角色中。

🎭 在角色扮演模式下,模型可替換視頻中的角色爲圖片角色。

🖼️ 模型設計了獨立的光照融合 LoRA,保證光照效果完美融合。

詳情鏈接:https://github.com/Wan-Video/Wan2.2

3、Suno v5音樂模型即將登場,AI音樂創作迎來“變革性”升級

Suno的v5音樂模型即將發佈,被視爲AI音樂創作的里程碑,預計將進一步模糊人類作曲與機器生成的界限。

image.png

【AiBase提要:】

🎧 Suno v5音樂模型即將推出,引發全球關注。

💡 v5將引入更先進的語義控制和多模態輸入功能。

📈 v4.5上線後,用戶生成作品播放量突破數億次。

4、生數科技獲數億元融資,視頻生成引領AI商業化新潮流

生數科技在多模態AI領域取得顯著進展,成功獲得數億元融資,並通過Vidu視頻大模型實現了商業化的成功。未來,視頻生成技術有望進一步發展並影響多個行業,但同時也需應對版權和虛假信息等問題。

【AiBase提要:】

🎥 生數科技完成數億元A輪融資,多模態AI領域迎來新突破。

💼 Vidu視頻大模型實現2000萬美元年收入,商業化應用廣泛。

🌐 視頻生成技術將改變全球數字內容生產方式,面臨版權治理等挑戰。

5、OpenAI 修復 ChatGPT 漏洞,防止用戶 Gmail 數據被盜取

文章指出,網絡安全公司 Radware 發現了 ChatGPT 的“深度研究”功能存在嚴重漏洞,可能被黑客利用來竊取用戶的 Gmail 郵件數據。該漏洞允許黑客通過特製郵件誘導 ChatGPT 在處理用戶 Gmail 查詢時,將敏感信息發送到惡意網站。OpenAI 已迅速修復此漏洞,並強調模型的安全性是其首要任務。

【AiBase提要:】

📧 ChatGPT 漏洞允許黑客通過特製郵件竊取用戶 Gmail 數據。

🔒 OpenAI 迅速修復漏洞,並確認其對用戶信息安全的重視。

🛡️ 常規安全防護難以檢測此類攻擊,用戶需保持警惕。

6、谷歌在 Chrome 瀏覽器中引入 Gemini,助力智能搜索新體驗

谷歌將 Gemini 集成到 Chrome 瀏覽器中,以增強用戶體驗並應對競爭壓力。Gemini 支持跨選項卡工作、任務安排等功能,並與谷歌的多個應用深度整合。企業用戶也將受益於數據保護和代理功能。

image.png

【AiBase提要:】

🌐 谷歌在 Chrome 中整合 Gemini,提升用戶智能搜索體驗。

📅 Gemini 支持用戶理解網頁內容,跨選項卡工作和安排任務。

🔒 企業用戶也將享受 Gemini 帶來的數據保護和代理功能。

7、Luma AI發佈Ray3:以“推理”能力革新視頻生成,支持16位色深

Luma AI推出的Ray3視頻生成模型憑藉其HDR能力和強大的“推理”功能,爲視頻創作帶來了革命性的變化,同時支持高精度的視覺控制和專業工作流程整合。

【AiBase提要:】

🎥 Ray3支持生成10位、12位乃至16位色深的視頻,並可導出爲EXR文件格式,便於專業工作流程使用。

🧠 Ray3具備“推理”能力,能理解複雜指令並自我評估輸出質量,實現視頻迭代優化。

🖌️ 用戶可通過圖像繪製草圖控制視頻內容,提供前所未有的創作自由度。

8、法國AI公司Mistral重磅推出開源推理模型 Magistral Small 1.2

法國公司 Mistral AI 推出了其最新開源推理模型 Magistral Small 1.2,該模型擁有24B參數,並以 Apache2.0 開源許可方式發佈。新版本支持高達128k的上下文處理,引入了[THINK]特殊token,增強了模型的表現力和靈活性。同時,Magistral Small 1.2還增加了視覺編碼器,兼容多種框架,爲開發者提供了更多便利。

【AiBase提要:】

🧠 Magistral Small 1.2 是一款具有24B參數的開源推理模型,採用 Apache2.0 許可協議發佈。

🔍 新版本引入了[THINK]特殊token,提升了模型的表現力和靈活性。

🖼️ 增加了視覺編碼器,使其在圖像和文本綜合任務中更具優勢。

9、Notion重磅發佈AI智能體!自動生成會議筆記、競品分析,20分鐘處理數百頁文檔

Notion推出了首個AI智能體,能夠利用用戶所有Notion頁面和數據庫作爲上下文,自動生成會議筆記、分析報告、競品評估等。該智能體功能強大,可創建或更新頁面和數據庫,並支持從外部平臺觸發操作。個性化設置是其亮點,用戶可以爲智能體設置檔案頁面,指導其如何引用來源、輸出風格等。

image.png

【AiBase提要:】

🧠 AI智能體能自動生成會議筆記、分析報告和競品評估。

🔄 支持從外部平臺(如Slack、郵件和Google Drive)觸發智能體操作。

📝 用戶可自定義智能體的檔案頁面,指導其行爲和輸出風格。

10、騰訊混元3D Studio 震撼登場:3D 創作從天級提速至分鐘級

騰訊混元3D Studio的發佈標誌着3D創作效率的革命性提升,爲設計師、遊戲開發者和建模師提供了強大的AI工作臺,顯著縮短了3D資產生產週期。

image.png

【AiBase提要:】

🧠 原生3D分割算法實現模型部件的自動拆分,支持獨立編輯角色配飾和服裝。

🎨 AI語義UV展開技術在1-2分鐘內生成符合美術標準的UV圖,提升工作效率。

🔧 智能材質編輯支持通過文本或圖片輸入生成高質量PBR質感紋理,實現精準材質控制。

詳情鏈接:https://3d.hunyuan.tencent.com/studio