AI日報：Wan 2.2-S2V模型即將發佈；字節跳動內測3D Model Generator；微軟開源 VibeVoice-1.5B 模型

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解：https://app.aibase.com/zh

1、阿里通義萬相預告Wan 2.2-S2V模型：解鎖AI視頻音頻同步生成

阿里通義萬相團隊在社交媒體平臺X上發佈了其最新AI模型Wan 2.2-S2V，該模型能夠同步生成視頻和音頻，實現視頻與音頻的深度融合。這標誌着多模態AI生成技術的重要進展，爲內容創作者提供了更高效、更具表現力的工具。

【AiBase提要:】
🔥 Wan2.2-S2V模型具備視頻與音頻同步生成能力，突破傳統視頻生成模型的限制。
🎵 模型能生成包含唱歌音頻的AI視頻，展現多模態AI生成技術的創新性。
🚀 此模型可能重新定義AI視頻生成領域的標準，推動沉浸感和真實感內容生成的發展。

2、字節跳動內測全新 3D 模型生成工具 “3D Model Generator”

字節跳動旗下的豆包團隊正在研發一款名爲“3D Model Generator”的新型3D模型生成工具，旨在爲用戶提供可控的大規模生成模型功能。該工具支持基於圖像生成和結合圖像與模型文件的生成方式，降低了3D建模的門檻，尤其在遊戲開發領域具有重要意義。

【AiBase提要:】
🖼️ 支持基於圖像生成3D模型，降低3D建模門檻。
⚙️ 提供結合圖像和模型文件的生成方式，增強創作靈活性。
🚀 預計對外開放，擴展豆包功能，服務更廣泛用戶需求。

3、手機也能跑！面壁智能重磅發佈MiniCPM-V4.5:4.1億參數碾壓GPT-4.1-mini

面壁智能與清華大學NLP實驗室聯合推出MiniCPM-V4.5，作爲端側多模態大模型，其性能卓越且部署高效。該模型在多項基準測試中表現優異，支持多語言、視頻和高分辨率圖像處理，適用於邊緣設備，推動了AI技術的普及。

【AiBase提要:】
🌟 MiniCPM-V4.5以4.1億參數實現高性能，超越GPT-4.1-mini等模型。
🖼️ 支持多圖、視頻理解及高分辨率圖像處理，OCR性能領先主流模型。
📱 高效部署於邊緣設備，適合移動、離線場景，降低開發門檻。
詳情鏈接:https://huggingface.co/openbmb/MiniCPM-V-4_5

4、蘋果推出AI訓練新方法用任務清單替代人工評分顯著提升模型性能

蘋果公司研究團隊提出了一種名爲基於清單反饋的強化學習（RLCF）的創新訓練方法，通過用具體任務清單替代傳統的人工點贊評分機制，大幅提升了大語言模型執行復雜指令的能力。該方法在多個評測基準中表現出色，尤其在處理複雜多步驟任務時效果顯著。

【AiBase提要:】
🍎 RLCF方法通過任務清單替代人工評分，提升模型執行復雜指令能力。
📊 在FollowBench、InFoBench等測試中，性能提升顯著，最高達8.2%。
⚙️ 使用大規模模型生成檢查清單，爲小模型提供優化指導，但需強大計算資源支持。

5、微軟開源 VibeVoice-1.5B 模型：90 分鐘超長語音合成新突破

微軟開源了其最新音頻模型 VibeVoice-1.5B，該模型在語音合成技術上實現了多項重大突破，包括支持90分鐘超長語音合成、四位發言人支持以及3200倍的音頻壓縮率。同時，其雙 tokenizer 架構有效解決了音色與語義不匹配的問題，爲語音合成領域帶來了新的技術突破。

【AiBase提要:】
🔊 VibeVoice-1.5B 模型可一次性合成90分鐘的超長語音，支持最多四位發言人。
💾 該模型實現3200倍的音頻壓縮率，保持高保真語音效果。
🤖 採用雙 tokenizer 架構，解決音色與語義不匹配的問題。
詳情鏈接:https://huggingface.co/microsoft/VibeVoice-1.5B

6、谷歌Imagen 4正式上線 Gemini API 和 Google AI Studio

谷歌公司發佈了全新的文本轉圖像生成模型Imagen4，通過Gemini API和Google AI Studio平臺向用戶開放。該模型包含三個版本，分別針對不同需求優化，提升了圖像生成質量、速度和成本效益，爲藝術創作、廣告設計等多個行業提供了強大的工具支持。

【AiBase提要:】
🌟 Imagen4標準版提升了整體圖像生成質量，特別是在文本渲染準確性方面表現突出。
⚡ Imagen4Fast版本優化了快速圖像生成和大批量處理任務，處理速度顯著提升，使用成本降至每次生成0.02美元。
🖼️ Imagen4Ultra版本能夠生成更精細的圖像細節，並能更準確地遵循用戶輸入的文本提示，確保生成結果的一致性和準確性。

7、字節跳動AI核心人才流失視覺研究負責人馮佳時正式離職

馮佳時作爲字節跳動Seed大模型視覺基礎研究團隊的核心負責人，其離職對公司的AI研究佈局產生了一定影響。他在計算機視覺領域擁有深厚的學術背景和豐富的經驗，並在加入字節跳動後取得了顯著的成就。

【AiBase提要:】
🔥 馮佳時是字節跳動Seed大模型視覺基礎研究團隊的負責人，其離職引發廣泛關注。
💡 馮佳時擁有中國科學技術大學、中科院自動化研究所和新加坡國立大學的教育背景，具有深厚的學術背景。
🚀 馮佳時在字節跳動期間領導了多模態基礎模型和生成模型等前沿技術的研究，爲公司技術創新做出了重要貢獻。

8、英偉達發佈Jetson Thor機器人計算平臺

英偉達推出了全新的Jetson Thor機器人計算平臺，採用Blackwell GPU架構，AI算力達到2070TFLOPS，較上一代提升7.5倍。該平臺配備128GB內存，支持多AI模型運行，並集成了NVIDIA Isaac仿真平臺，爲開發者提供統一的開發環境。

【AiBase提要:】
🚀 Jetson Thor採用Blackwell GPU架構，AI算力達到2070TFLOPS，性能提升顯著。
🧠 配備128GB超大內存，支持多任務處理和複雜場景下的高效運行。
🌐 集成NVIDIA Isaac仿真平臺，提供從雲端到邊緣的統一開發環境。

9、Genspark推出AIDesigner:一鍵生成品牌全案，重新定義Al設計新格局

Genspark AI Designer是一款革命性的AI設計工具，能夠一鍵生成完整的品牌設計方案，涵蓋Logo、包裝、網站設計等多個領域，極大地降低了設計門檻，並受到全球設計界與科技行業的廣泛關注。

【AiBase提要:】
🎨 Genspark AI Designer支持多模態輸入，可生成矢量圖標、3D渲染和動畫視頻等多種設計資產。
🌐 該工具通過自然語言指令完成複雜設計任務，實現品牌Logo、包裝、網站等全鏈路創意解決方案。
💡 AI Designer重新定義了品牌設計流程，爲創作者和企業提供了高效且經濟的解決方案。
詳情鏈接:https://www.genspark.ai/ai_designer

10、豆包正式上線未成年人保護模式

豆包推出未成年人保護模式，旨在幫助家長管理孩子的使用行爲。該模式關閉了部分功能，如推薦視頻、第三方網頁瀏覽等，但保留了翻譯和深入研究等功能。

【AiBase提要:】
🔒 未成年人保護模式可由家長通過密碼開啓，限制部分內容的訪問。
📺 推薦視頻、第三方網頁瀏覽等功能在該模式下默認關閉。
🌐 翻譯和深入研究等功能仍可正常使用，確保學習和探索不受影響。

AI日報：Wan 2.2-S2V模型即將發佈；字節跳動內測3D Model Generator；微軟開源 VibeVoice-1.5B 模型

相關推薦

騰訊混元Hy3發佈：Agent能力和產品體驗躍升

8 小時追平、 2 天反超：面壁智能 ForgeTrain 如何用 AI“鍛造”下一代訓練框架？

全球首例AI智能體勒索攻擊浮出水面：無需人類干預的自動化“作案”鏈條

百年超導競賽迎來AI破局： 28 小時精準篩選，鎖定四種全新材料

具身智能的「ChatGPT時刻」臨近：宇樹科技描繪機器人產業新圖景

AI日報：Wan 2.2-S2V模型即將發佈；​字節跳動內測3D Model Generator；微軟開源 VibeVoice-1.5B 模型

相關推薦

騰訊混元Hy3發佈：Agent能力和產品體驗躍升

8 小時追平、 2 天反超：面壁智能 ForgeTrain 如何用 AI“鍛造”下一代訓練框架？

全球首例AI智能體勒索攻擊浮出水面：無需人類干預的自動化“作案”鏈條

百年超導競賽迎來AI破局： 28 小時精準篩選，鎖定四種全新材料

具身智能的「ChatGPT時刻」臨近：宇樹科技描繪機器人產業新圖景

AI日報：Wan 2.2-S2V模型即將發佈；字節跳動內測3D Model Generator；微軟開源 VibeVoice-1.5B 模型