歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。
新鮮AI產品點擊瞭解:https://app.aibase.com/zh
1、小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio
小米公司宣佈開源其首個原生端到端語音大模型 Xiaomi-MiMo-Audio,標誌着語音技術領域的重大突破。該模型基於創新的預訓練架構和上億小時的訓練數據,在少樣本泛化能力方面表現出色,並在多個評測基準中超越了其他閉源模型。

【AiBase提要:】
🧠 首次實現語音領域基於In-Context Learning的少樣本泛化能力。
🚀 在音頻理解基準 MMAU 和 Big Bench Audio S2T 任務中超越了 Google 和 OpenAI 的閉源模型。
🔧 開源完整的語音預訓練方案,包括 Tokenizer、模型結構、訓練方法和評測體系。
詳情鏈接:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct
2、通義萬相全新動作生成模型Wan2.2-Animate正式開源
通義萬相團隊推出的全新動作生成模型 Wan2.2-Animate 在人物一致性、生成質量等方面有顯著提升,支持動作模仿和角色扮演兩種模式,廣泛應用於短視頻創作、動漫製作等領域。

【AiBase提要:】
🎭 輸入角色圖片和參考視頻,模型可將視頻動作遷移到圖片角色中。
🎭 在角色扮演模式下,模型可替換視頻中的角色爲圖片角色。
🖼️ 模型設計了獨立的光照融合 LoRA,保證光照效果完美融合。
詳情鏈接:https://github.com/Wan-Video/Wan2.2
3、Suno v5音樂模型即將登場,AI音樂創作迎來“變革性”升級
Suno的v5音樂模型即將發佈,被視爲AI音樂創作的里程碑,預計將進一步模糊人類作曲與機器生成的界限。

【AiBase提要:】
🎧 Suno v5音樂模型即將推出,引發全球關注。
💡 v5將引入更先進的語義控制和多模態輸入功能。
📈 v4.5上線後,用戶生成作品播放量突破數億次。
4、生數科技獲數億元融資,視頻生成引領AI商業化新潮流
生數科技在多模態AI領域取得顯著進展,成功獲得數億元融資,並通過Vidu視頻大模型實現了商業化的成功。未來,視頻生成技術有望進一步發展並影響多個行業,但同時也需應對版權和虛假信息等問題。
【AiBase提要:】
🎥 生數科技完成數億元A輪融資,多模態AI領域迎來新突破。
💼 Vidu視頻大模型實現2000萬美元年收入,商業化應用廣泛。
🌐 視頻生成技術將改變全球數字內容生產方式,面臨版權治理等挑戰。
5、OpenAI 修復 ChatGPT 漏洞,防止用戶 Gmail 數據被盜取
文章指出,網絡安全公司 Radware 發現了 ChatGPT 的“深度研究”功能存在嚴重漏洞,可能被黑客利用來竊取用戶的 Gmail 郵件數據。該漏洞允許黑客通過特製郵件誘導 ChatGPT 在處理用戶 Gmail 查詢時,將敏感信息發送到惡意網站。OpenAI 已迅速修復此漏洞,並強調模型的安全性是其首要任務。
【AiBase提要:】
📧 ChatGPT 漏洞允許黑客通過特製郵件竊取用戶 Gmail 數據。
🔒 OpenAI 迅速修復漏洞,並確認其對用戶信息安全的重視。
🛡️ 常規安全防護難以檢測此類攻擊,用戶需保持警惕。
6、谷歌在 Chrome 瀏覽器中引入 Gemini,助力智能搜索新體驗
谷歌將 Gemini 集成到 Chrome 瀏覽器中,以增強用戶體驗並應對競爭壓力。Gemini 支持跨選項卡工作、任務安排等功能,並與谷歌的多個應用深度整合。企業用戶也將受益於數據保護和代理功能。

【AiBase提要:】
🌐 谷歌在 Chrome 中整合 Gemini,提升用戶智能搜索體驗。
📅 Gemini 支持用戶理解網頁內容,跨選項卡工作和安排任務。
🔒 企業用戶也將享受 Gemini 帶來的數據保護和代理功能。
7、Luma AI發佈Ray3:以“推理”能力革新視頻生成,支持16位色深
Luma AI推出的Ray3視頻生成模型憑藉其HDR能力和強大的“推理”功能,爲視頻創作帶來了革命性的變化,同時支持高精度的視覺控制和專業工作流程整合。
【AiBase提要:】
🎥 Ray3支持生成10位、12位乃至16位色深的視頻,並可導出爲EXR文件格式,便於專業工作流程使用。
🧠 Ray3具備“推理”能力,能理解複雜指令並自我評估輸出質量,實現視頻迭代優化。
🖌️ 用戶可通過圖像繪製草圖控制視頻內容,提供前所未有的創作自由度。
8、法國AI公司Mistral重磅推出開源推理模型 Magistral Small 1.2
法國公司 Mistral AI 推出了其最新開源推理模型 Magistral Small 1.2,該模型擁有24B參數,並以 Apache2.0 開源許可方式發佈。新版本支持高達128k的上下文處理,引入了[THINK]特殊token,增強了模型的表現力和靈活性。同時,Magistral Small 1.2還增加了視覺編碼器,兼容多種框架,爲開發者提供了更多便利。
【AiBase提要:】
🧠 Magistral Small 1.2 是一款具有24B參數的開源推理模型,採用 Apache2.0 許可協議發佈。
🔍 新版本引入了[THINK]特殊token,提升了模型的表現力和靈活性。
🖼️ 增加了視覺編碼器,使其在圖像和文本綜合任務中更具優勢。
9、Notion重磅發佈AI智能體!自動生成會議筆記、競品分析,20分鐘處理數百頁文檔
Notion推出了首個AI智能體,能夠利用用戶所有Notion頁面和數據庫作爲上下文,自動生成會議筆記、分析報告、競品評估等。該智能體功能強大,可創建或更新頁面和數據庫,並支持從外部平臺觸發操作。個性化設置是其亮點,用戶可以爲智能體設置檔案頁面,指導其如何引用來源、輸出風格等。

【AiBase提要:】
🧠 AI智能體能自動生成會議筆記、分析報告和競品評估。
🔄 支持從外部平臺(如Slack、郵件和Google Drive)觸發智能體操作。
📝 用戶可自定義智能體的檔案頁面,指導其行爲和輸出風格。
10、騰訊混元3D Studio 震撼登場:3D 創作從天級提速至分鐘級
騰訊混元3D Studio的發佈標誌着3D創作效率的革命性提升,爲設計師、遊戲開發者和建模師提供了強大的AI工作臺,顯著縮短了3D資產生產週期。

【AiBase提要:】
🧠 原生3D分割算法實現模型部件的自動拆分,支持獨立編輯角色配飾和服裝。
🎨 AI語義UV展開技術在1-2分鐘內生成符合美術標準的UV圖,提升工作效率。
🔧 智能材質編輯支持通過文本或圖片輸入生成高質量PBR質感紋理,實現精準材質控制。
詳情鏈接:https://3d.hunyuan.tencent.com/studio
