AI日報：阿里開源文檔模型DocOwl 1.5；Midjourney圖像編輯器新功能下週上線；Viggle AI推對口型功能

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、表格、圖表統統拿下!阿里達摩院開源DocOwl1.5無需OCR，高效“讀懂”文檔!

阿里巴巴達摩院與中國人民大學聯合開源了mPLUG-DocOwl1.5文檔處理模型，無需OCR即可理解文檔內容，在多個視覺文檔理解基準測試中表現領先。該模型強調結構信息的重要性，提出“統一結構學習”來提升MLLM性能。

【AiBase提要:】
🔍 mPLUG-DocOwl1.5無需OCR即可理解文檔內容，在視覺文檔理解基準測試中領先。
📊 強調結構信息對於文檔理解的重要性，提出“統一結構學習”來提升MLLM性能。
🔗 提供了開源代碼、模型和數據集，取得了在多個下游任務中的最先進性能。
詳情鏈接:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

2、Midjourney圖像編輯器新功能下週上線

Midjourney的創始人David Holz宣佈，一款全新的圖像編輯器即將上線，該編輯器利用上傳圖像的深度信息生成新圖片，保留原始構圖和內容的同時徹底改變紋理、顏色和細節。這一創新提升了用戶創作自由度，爲設計師和藝術家提供強大工具。Midjourney通過AI技術不斷優化圖像生成質量，最新v6.1模型進一步提升圖像清晰度和準確性。新圖像編輯器的加入將拓寬AI在創意領域的應用，預示着Midjourney在圖像編輯工具方面的重大進步。

【AiBase提要:】
✨ 利用上傳圖像的深度信息生成新圖片，保留原始構圖和內容，徹底改變紋理、顏色和細節。
🎨 Midjourney致力於通過AI技術提升圖像生成質量，最新v6.1模型進一步優化圖像清晰度和準確性。
💡 新編輯器的加入將拓寬AI在創意領域的應用，爲設計師和藝術家提供更靈活的圖像操控和修改方式。

3、Viggle AI再推新功能可通過錄制聲音讓角色說話

Viggle AI推出了令人興奮的新功能，用戶可以通過錄制聲音讓角色說話並實現口型同步。這項創新技術讓用戶完全控制角色的表現方式，無論是唱歌還是跳舞，都能輕鬆實現。Viggle應用程序以其創新性在社交媒體上引起了廣泛關注，利用先進的JST-1視頻3D基礎模型，用戶可以輕鬆創造和混合視頻內容。

【AiBase提要:】
🎤 角色說話功能:用戶可以通過錄制聲音讓角色說話，實現口型同步。
🎭 角色替換功能:用戶可以將任何角色置入視頻場景，創造個性化沉浸式體驗。
🔄 靜態圖像動畫化:用戶可以將靜態照片轉化爲動態影像，增加視頻趣味性和互動性。
詳情鏈接:https://viggle.ai/home

4、即使是頂尖AI模型也難以應對複雜旅行規劃，OpenAI o1-preview也犯難

最新研究表明，即使是先進的AI語言模型，如OpenAI最新的o1-preview，在複雜的規劃任務中也面臨挑戰。研究發現模型在整合規則和條件方面表現不佳，且隨規劃時間增加會逐漸失去對問題的關注。儘管一些模型在BlocksWorld中表現尚可，但在更復雜的TravelPlanner任務中表現不佳。

【AiBase提要:】
🌍 OpenAI的o1-preview等AI模型在複雜旅行規劃上表現不佳，GPT-4o成功率僅7.8%。
📉 大多數模型在BlocksWorld中表現尚可，但在TravelPlanner上難以達到理想效果。
🧠 模型存在對規則的整合不足及隨時間推移而失去焦點的問題。
詳情鏈接:https://github.com/hsaest/Agent-Planning-Analysis

5、開源工具Vulnhuntr可發現Python零日漏洞，巧妙利用Claude AI

Protect AI公司推出的Vulnhuntr工具利用Claude AI幫助開發者發現Python代碼中的零日漏洞。該工具與傳統靜態分析不同，能夠追蹤用戶輸入到服務器輸出的完整調用鏈，提高漏洞檢測準確性。Vulnhuntr已在多個大型開源項目中發現零日漏洞，即將在GitHub上發佈供開發者使用。

【AiBase提要:】
🌟 Vulnhuntr是開源工具，利用Claude AI發現Python零日漏洞。
🛠️ 工具工作方式不同於靜態分析，能追蹤完整調用鏈。
🚀 Vulnhuntr已發現多個大型開源項目中的零日漏洞，即將在GitHub上發佈。

6、字節跳動迴應“實習生破壞大模型訓練”:未影響正式商業項目

字節跳動近期針對實習生破壞大模型訓練的傳聞進行了官方迴應，確認實習生惡意干擾研究項目模型訓練，但未影響正式商業項目和線上業務。公司指出傳聞嚴重誇大，已辭退實習生並通報相關機構。事件暴露安全管理問題，公司計劃大力投資AI技術。

【AiBase提要:】
🔍 實習生惡意干擾大模型訓練，未影響商業項目和線上業務。
🔒 公司確認傳聞誇大，已辭退實習生並通報相關機構。
💡 事件暴露安全管理問題，公司計劃大力投資AI技術。

7、Meta最新黑科技SPIRIT-LM:能說會寫還能懂你的情緒，這個 AI 語言模型有點強!

SPIRIT-LM 是一款具有革命性意義的多模態基礎語言模型，能夠自由混合文本和語音，理解和表達情感。它結合了文本模型的語義能力和語音模型的表達能力，完成跨模態任務，只需少量樣本即可學習新任務。SPIRIT-LM-EXPRESSIVE在情感表達方面優於基礎版，開創了多模態語言理解和生成的新可能性。

【AiBase提要:】
⚙️ SPIRIT-LM 是多模態基礎語言模型，能混合文本和語音，理解情感。
🔑 SPIRIT-LM 結合了文本模型的語義能力和語音模型的表達能力，完成跨模態任務。
💡 SPIRIT-LM-EXPRESSIVE在情感表達方面優於基礎版，開創了多模態語言理解和生成的新可能性。
詳情鏈接:https://arxiv.org/pdf/2402.05755

8、顛覆 Stable Diffusion!智源重磅發佈 Emu3，圖像、文本、視頻全拿下!

Emu3團隊發佈了一套全新的多模態模型Emu3，顛覆了傳統的擴散模型和組合模型架構，在生成和感知任務上取得了最先進的性能。該模型基於下一個token預測進行訓練，實現了多模態任務的統一，超越了特定任務模型，甚至旗艦模型。Emu3的成功爲多模態模型的未來發展指明瞭方向，也爲實現AGI帶來了新的希望。

【AiBase提要:】
🚀 Emu3基於下一個token預測進行訓練，顛覆了傳統模型架構，取得了最先進的性能。
💡 Emu3實現了多模態任務的統一，無需依賴擴散或組合架構，超越了特定任務模型和旗艦模型。
🔗 Emu3團隊開源了關鍵技術和模型，爲多模態智能領域的進一步研究提供支持。
詳情鏈接:https://github.com/baaivision/Emu3

9、Perplexity AI 尋求90億美元估值

Perplexity AI 宣佈在新一輪融資中希望將估值提升至90億美元，當前估值爲30億美元。公司面臨抄襲指控，但堅決否認。在激烈市場競爭中努力提升技術和服務水平。

【AiBase提要:】
🌟 Perplexity AI 計劃將估值提高至90億美元，吸引大量投資者關注。
💰 公司自今年初以來進行了三輪融資，迅速發展。
📰 面臨抄襲指控，公司堅決否認並保護知識產權。

10、前OpenAI CTO重磅打造新AI公司，融資目標高達1億美元

Mira Murati正籌集超過1億美元的風險投資，準備創辦新的AI創業公司。她離開OpenAI希望進行個人探索，而OpenAI在她離職後籌集了創紀錄的66億美元風險投資。期待Murati的新公司未來發展。

【AiBase提要:】
✨ Mira Murati正籌集超過1億美元的風險投資，打造新AI公司。
🚀 Murati離開OpenAI希望進行個人探索，未透露具體計劃。
📈 OpenAI在Murati離職後籌集了創紀錄的66億美元風險投資。

11、蘋果AI發展滯後兩年，計劃未來兩年全線設備引入Apple Intelligence

在今年的WWDC大會上，蘋果展示了AI新特性，但分析師稱蘋果在AI技術發展上落後競爭對手約兩年。蘋果計劃未來兩年在所有帶屏設備上推出“Apple Intelligence”功能，儘管起步較晚，但有信心迎頭趕上。

【AiBase提要:】
📅 蘋果在AI發展上落後競爭對手約兩年，正努力追趕行業標準。
💡 蘋果計劃未來兩年內在所有帶屏設備上推出“Apple Intelligence”功能。
📱 新款iPad和即將推出的iPhone都將配備支持“Apple Intelligence”的硬件。

12、北京市新增12款生成式AI服務備案，累計達94款

北京市最近新增了12款生成式人工智能服務備案，使得累計備案數量達到了94款，爲用戶帶來更多選擇與便利。已上線的AI應用需公示備案情況，包括模型名稱和備案編號。本次新增備案名單中包括快手科技公司的可靈AI和崑崙萬維科技股份有限公司的天工圖像。

【AiBase提要:】
📈 北京市新增12款生成式AI服務備案，累計達94款
🔍 已上線AI應用需公示備案情況，包括模型名稱和備案編號
📋 本次新增備案名單中包括快手科技公司的可靈AI和崑崙萬維科技股份有限公司的天工圖像

AI日報：阿里開源文檔模型DocOwl 1.5；Midjourney圖像編輯器新功能下週上線；Viggle AI推對口型功能

相關推薦

無縫升級!阿里打包升級QoderWork等多款AI工具，聚焦企業核心場景

MiniMax7月9日迎首批解禁阿里、米哈遊明確不減持

阿里巴巴發佈HappyHorse 1.1 視頻生成模型多維度系統性升級

AI 戰略再提速：阿里巴巴整合組織架構，成立 Token Foundry 事業部

阿里千問 AI 眼鏡 S1 升級：主動服務與全球首個 3D 顯示功能來襲

AI日報：阿里開源文檔模型DocOwl 1.5；Midjourney圖像編輯器新功能下週上線；Viggle AI推對口型功能

相關推薦

無縫升級!阿里打包升級QoderWork等多款AI工具，聚焦企業核心場景

MiniMax7月9日迎首批解禁 阿里、米哈遊明確不減持

阿里巴巴發佈HappyHorse 1.1 視頻生成模型 多維度系統性升級

AI 戰略再提速：阿里巴巴整合組織架構，成立 Token Foundry 事業部

​阿里千問 AI 眼鏡 S1 升級：主動服務與全球首個 3D 顯示功能來襲

MiniMax7月9日迎首批解禁阿里、米哈遊明確不減持

阿里巴巴發佈HappyHorse 1.1 視頻生成模型多維度系統性升級

阿里千問 AI 眼鏡 S1 升級：主動服務與全球首個 3D 顯示功能來襲