AI日報：字節推圖像編輯模型SeedEdit；Suno發佈V4音樂生成模型；谷歌最新AI視頻製作神器Vids

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、豆包大模型團隊正式發佈圖像編輯模型SeedEdit 用嘴P圖成真!

SeedEdit是豆包大模型團隊推出的圖像編輯工具，通過一句話命令AI實現精準修改圖片元素，比MJ更簡單快捷。用戶只需輸入指令，如"把項圈變成珍珠項鍊"，即可輕鬆編輯圖片。SeedEdit在維持原始圖像和生成新圖像之間取得平衡，支持多輪編輯，精準理解用戶指令，保持高質量。

【AiBase提要:】
🎨 一句話P圖成真:SeedEdit通過一句話命令AI實現精準修改圖片元素，更簡單快捷。
🚀 最佳平衡設計:SeedEdit在維持原始圖像和生成新圖像之間取得平衡，保持高質量。
👀 多輪編輯支持:SeedEdit支持用戶多次修改圖像，讓用戶得到滿意的效果。
詳情鏈接:https://huggingface.co/spaces/ByteDance/SeedEdit-APP

2、谷歌推出AI視頻製作神器Vids:輸入文字秒變視頻，小白也能輕鬆創作!

谷歌最近推出了名爲Vids的AI視頻演示應用程序，利用Gemini AI模型驅動，用戶可以通過簡單的文字提示或上傳Google Drive文檔生成視頻演示文稿。Vids具有強大的AI智能創作能力，簡化了視頻製作過程，提供豐富模板和自定義編輯功能。同時支持便捷的語音和錄音功能，實時協作和安全共享，適用於多種場景。Vids的推出標誌着AI技術在視頻製作領域的重大突破，讓用戶輕鬆創作高質量視頻內容。

【AiBase提要:】
✨ 強大的AI智能創作能力，自動生成視頻草稿包含場景、腳本、推薦媒體素材和背景音樂，簡化視頻製作過程。
🎬 提供豐富模板和自定義編輯功能，用戶可選擇合適模板，添加動畫、轉場、照片特效，滿足個性化編輯需求。
🔊 支持便捷的語音和錄音功能，包括AI語音旁白、滾動式提詞器，方便用戶錄製、添加講解和展示內容。
詳情鏈接:https://workspace.google.com/products/vids/

3、Suno發佈V4音樂生成模型音頻演示視頻，音質和風格大提升

Suno 公司最新發佈的v4音樂生成模型展現出顯著的音質和多樣性提升，通過深度學習技術生成更自然和富有表現力的音樂作品。這一創新不僅適用於個人創作，還可以推動AI音樂生成技術的普及和應用。

【AiBase提要:】
🎵 v4音樂生成模型展現出顯著的音質和多樣性提升
🎶 通過深度學習技術生成更自然和富有表現力的音樂作品
🎤 適用於個人創作和商業音樂製作，推動AI音樂生成技術的普及

4、百度文心一言AI繪畫功能升級

百度AI旗下的文心一言AI繪畫技術迎來了重大升級，現在支持一鍵生成多比例圖片，極大地簡化了新媒體配圖流程。技術進步使得文心一言AI在語義理解、視覺效果和細節刻畫上都有顯著提升，提高工作效率，提升視覺效果，使新媒體配圖變得簡單易行。

【AiBase提要:】
🖌️ 一鍵生成多比例圖片:用戶輸入所需的圖片比例，系統自動生成多尺寸圖片，覆蓋各種需求，提高工作效率。
🎨 支持任意風格繪製:智慧生圖能繪製多種風格，用戶輸入描述即可生成高質感、細節豐富的圖片，提升視覺效果。
🖼️ 參考圖生成圖片:支持參考圖生成，使人物生成更美觀，畫面更精準，滿足不同內容創作需求。

5、崑崙萬維SkyReels AI短劇平臺將於12月10日在美國正式上線

崑崙萬維科技股份有限公司旗下的AI短劇平臺SkyReels即將在美國正式上線，這標誌着公司在全球AI娛樂市場的擴張，爲北美觀衆帶來全新的智能短劇體驗。平臺通過創新技術和功能，爲內容創作者提供強大的創作工具，同時降低了AI短劇創作門檻，使非專業用戶也能輕鬆上手。

【AiBase提要:】
🚀 崑崙萬維SkyReels AI短劇平臺12月10日在美國正式上線，標誌着全球AI娛樂市場擴張。
💡 SkyReels集成視頻大模型與3D大模型，顛覆視頻內容創作流程，實現創作者創作夢想。
🔑 SkyReels新增3D交互編輯、AI全身動捕等特色功能，與北美內容創作者合作豐富內容，提升用戶體驗。

6、視頻也能腦補配音?CogSound讓視頻“聲”動起來，從此告別無聲尷尬!

CogSound是一款基於人工智能技術的音效生成模型，能爲無聲視頻添加逼真的音頻體驗，讓觀衆享受身臨其境的音效體驗。它像經驗豐富的配音大師，識別視頻場景，匹配合適音效，並確保音視頻同步。採用先進技術確保音效與畫面完美同步，避免“音畫不同步”的尷尬。

【AiBase提要:】
🔊 CogSound是基於人工智能技術的音效生成模型，能爲無聲視頻添加逼真音頻體驗。
🎬 CogSound識別視頻場景，匹配合適音效，並確保音視頻高度同步。
🔧 CogSound採用先進技術保證音效與畫面完美同步，避免“音畫不同步”的尷尬。

7、即夢AI宣佈Seaweed視頻生成模型開放使用

即夢AI宣佈開放Seaweed視頻生成模型，提供專業級光影佈局和色彩調和，畫面視覺美感和真實感。模型基於DiT架構，能實現流暢自然的大幅度運動畫面。Pro版模型可實現多拍動作與多主體複雜交互，攻克多鏡頭切換難題，適配各種設備比例，助力專業創作者和藝術家們的創作。

【AiBase提要:】
⚙️ Seaweed視頻生成模型開放使用，提供專業級光影佈局和色彩調和。
🎥 模型基於DiT架構，能實現流暢自然的大幅度運動畫面，僅需60s生成高質量AI視頻。
🎬 Pro版模型可實現多拍動作與多主體複雜交互，攻克多鏡頭切換難題，適配各種設備比例，助力專業創作者和藝術家們的創作。

8、URAvatar:用手機掃描即可生成個性化虛擬頭像

URAvatar技術利用手機掃描生成高保真的虛擬頭像，提升了虛擬頭像的視覺效果，讓用戶可以實時驅動和調整頭像。該技術採用可學習的輻射傳輸模型，實現了實時渲染和光照遷移，爲虛擬頭像帶來新的可能性。用戶還可以獨立控制頭像的凝視方向和頸部動作，增強了虛擬交互體驗。

【AiBase提要:】
🌟 URAvatar技術通過手機掃描生成高保真的虛擬頭像，提升了虛擬頭像的視覺效果。
💡 採用可學習的輻射傳輸模型，實現了實時渲染和光照遷移，爲虛擬頭像帶來新的可能性。
🎮 用戶可獨立控制頭像的凝視方向和頸部動作，增強了虛擬交互體驗。

9、告別建模苦惱!DimensionX單圖生成3D/4D場景

我看到了一篇關於香港科技大學和清華大學研究團隊推出的全新AI框架DimensionX的文章。這個框架可以僅憑一張圖片生成充滿細節的3D和4D場景，爲遊戲開發、虛擬現實和影視製作領域帶來了革命性突破。它的核心魔法是可控視頻擴散技術，讓我感到非常驚歎和興奮。

【AiBase提要:】
🔮 DimensionX是一款AI框架，能從單張圖片中提取空間和時間信息，生成連續的視頻幀，最終組合成完整的3D或4D場景。
🎥 DimensionX配備了S-Director和T-Director兩個強大的“魔法棒”，分別控制空間維度和時間維度，讓用戶可以自由操控視角和物體運動。
🌟 DimensionX還引入了軌跡感知機制和身份保持去噪策略，優化真實場景生成，確保3D和4D場景更加真實可信。
詳情鏈接:https://chenshuo20.github.io/DimensionX/

10、Meta AI發佈FBDetect:實時識別0.005%性能下降，節省數千臺服務器!

在大型雲基礎設施管理中，即使微小性能下降也可能導致顯著資源浪費。Meta AI推出FBDetect，能實時識別0.005%性能迴歸，幫助Meta避免約4000臺服務器資源浪費，提高基礎設施效率。

【AiBase提要:】
🔍 FBDetect能監測到微小的性能迴歸，甚至低至0.005%，極大提高了檢測精度。
💻 系統覆蓋約80萬個時間序列，涉及多個性能指標，並能在大規模環境中進行精準分析。
🚀 FBDetect經過七年實際應用，每年幫助Meta避免約4000臺服務器資源浪費，提高了基礎設施整體效率。
詳情鏈接:https://tangchq74.github.io/FBDetect-SOSP24.pdf

11、Anthropic發佈新型token計數API，支持多種Claude模型

在當前的人工智能領域，Anthropic公司推出了新型token計數API，旨在幫助開發者更好地管理語言模型中的token使用，提升交互效率和控制能力。該API準確估算token數，優化token使用，降低成本，適用於構建客戶支持聊天機器人、文檔摘要和互動學習工具。

【AiBase提要:】
🌟 提升開發效率:新型token計數API幫助開發者準確掌握令牌使用情況，優化開發過程。
💰 控制成本效益:理解token使用，有效控制API調用費用，適合成本敏感項目。
🤖 多模型支持:支持多種Claude模型，靈活應用於不同場景，提升開發者體驗。
詳情鏈接:https://docs.anthropic.com/en/docs/build-with-claude/token-counting

12、10月份ChatGPT流量激增至37億，谷歌NotebookLM憑新功能飆升成黑馬!

ChatGPT和谷歌NotebookLM在2024年10月表現搶眼，前者全球訪問量達到37億次，同比增長115.9%，後者因新功能推出訪問量激增至3150萬次。AI服務整體增長態勢良好，未來有望加速增長。

【AiBase提要:】
📈 ChatGPT全球訪問量達到37億次，同比增長115.9%。
🎙️ 谷歌NotebookLM因新推出的AI播客功能訪問量激增至3150萬次。
💻 其他AI服務如微軟的Co-pilot和谷歌的Gemini也實現了一定的增長。

13、AI編碼助手Cursor背後公司估值暴漲至25億美元，投資者競相搶購

Anysphere旗下的AI編碼助手Cursor月收入迅速增長至每月400萬美元，吸引了大量風險投資者的關注。公司估值在短短几周內從15億美元飆升至25億美元，成爲市場焦點。創始團隊均爲麻省理工學院學生，曾畢業於OpenAI的加速器項目，展現出強大的潛力和吸引力。

【AiBase提要:】
🌟 Anysphere的AI編碼助手Cursor月收入從400萬美元迅速增長至每月400萬美元。
💰 風險投資者對Anysphere的興趣激增，公司估值從15億美元升至25億美元。
🎓 Anysphere成立於2022年，創始團隊均爲麻省理工學院學生，曾畢業於OpenAI的加速器項目。

14、最後一曲!甲殼蟲樂隊借AI修復新曲《Now and Then》獲兩項格萊美提名

甲殼蟲樂隊利用人工智能技術修復新曲《Now and Then》，並獲得兩項格萊美提名，儘管已解散50年，仍引人驚訝。保羅・麥卡特尼親自參與制作，通過AI技術修復約翰・列儂的錄音，展現出樂隊的音樂魅力。格萊美提名使樂隊再次成爲關注焦點。

【AiBase提要:】
🎵 甲殼蟲樂隊的新曲《Now and Then》獲得年度唱片和最佳搖滾表演兩項格萊美提名。
🎤 此曲通過AI技術修復了約翰・列儂1978年的錄音，保羅・麥卡特尼親自參與制作。
📈 儘管播放量相對較低，甲殼蟲樂隊依然在與當代音樂巨星競爭中引發廣泛關注。

AI日報：字節推圖像編輯模型SeedEdit；Suno發佈V4音樂生成模型；谷歌最新AI視頻製作神器Vids

相關推薦

AI日報：Anthropic發佈Claude Opus 4.6；千問“春節大免單”首日火爆；騰訊推出“火龍漫劇”

中文圖像編輯迎來新王！UniWorld-V2發佈，框選即改、中文字體精準渲染，性能碾壓GPT-Image與Gemini

AI圖像編輯突破！字節跳動與港中大等聯合開源DreamOmni2 解決AI理解抽象概念難題

超越FLUX Kontext！新圖像編輯模型nano-banana角色還原能力超強

「6月30日AI日報」百度開源文心大模型4.5系列；通義千問多模態生成模型Qwen VLo