歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、表格、圖表統統拿下!阿里達摩院開源DocOwl1.5無需OCR,高效“讀懂”文檔!

阿里巴巴達摩院與中國人民大學聯合開源了mPLUG-DocOwl1.5文檔處理模型,無需OCR即可理解文檔內容,在多個視覺文檔理解基準測試中表現領先。該模型強調結構信息的重要性,提出“統一結構學習”來提升MLLM性能。

2.png

【AiBase提要:】

🔍 mPLUG-DocOwl1.5無需OCR即可理解文檔內容,在視覺文檔理解基準測試中領先。

📊 強調結構信息對於文檔理解的重要性,提出“統一結構學習”來提升MLLM性能。

🔗 提供了開源代碼、模型和數據集,取得了在多個下游任務中的最先進性能。

詳情鏈接:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

2、Midjourney圖像編輯器新功能下週上線

Midjourney的創始人David Holz宣佈,一款全新的圖像編輯器即將上線,該編輯器利用上傳圖像的深度信息生成新圖片,保留原始構圖和內容的同時徹底改變紋理、顏色和細節。這一創新提升了用戶創作自由度,爲設計師和藝術家提供強大工具。Midjourney通過AI技術不斷優化圖像生成質量,最新v6.1模型進一步提升圖像清晰度和準確性。新圖像編輯器的加入將拓寬AI在創意領域的應用,預示着Midjourney在圖像編輯工具方面的重大進步。

【AiBase提要:】

✨ 利用上傳圖像的深度信息生成新圖片,保留原始構圖和內容,徹底改變紋理、顏色和細節。

🎨 Midjourney致力於通過AI技術提升圖像生成質量,最新v6.1模型進一步優化圖像清晰度和準確性。

💡 新編輯器的加入將拓寬AI在創意領域的應用,爲設計師和藝術家提供更靈活的圖像操控和修改方式。

3、Viggle AI再推新功能 可通過錄制聲音讓角色說話

Viggle AI推出了令人興奮的新功能,用戶可以通過錄制聲音讓角色說話並實現口型同步。這項創新技術讓用戶完全控制角色的表現方式,無論是唱歌還是跳舞,都能輕鬆實現。Viggle應用程序以其創新性在社交媒體上引起了廣泛關注,利用先進的JST-1視頻3D基礎模型,用戶可以輕鬆創造和混合視頻內容。

【AiBase提要:】

🎤 角色說話功能:用戶可以通過錄制聲音讓角色說話,實現口型同步。

🎭 角色替換功能:用戶可以將任何角色置入視頻場景,創造個性化沉浸式體驗。

🔄 靜態圖像動畫化:用戶可以將靜態照片轉化爲動態影像,增加視頻趣味性和互動性。

詳情鏈接:https://viggle.ai/home

4、即使是頂尖AI模型也難以應對複雜旅行規劃,OpenAI o1-preview也犯難

最新研究表明,即使是先進的AI語言模型,如OpenAI最新的o1-preview,在複雜的規劃任務中也面臨挑戰。研究發現模型在整合規則和條件方面表現不佳,且隨規劃時間增加會逐漸失去對問題的關注。儘管一些模型在BlocksWorld中表現尚可,但在更復雜的TravelPlanner任務中表現不佳。

【AiBase提要:】

🌍 OpenAI的o1-preview等AI模型在複雜旅行規劃上表現不佳,GPT-4o成功率僅7.8%。

📉 大多數模型在BlocksWorld中表現尚可,但在TravelPlanner上難以達到理想效果。

🧠 模型存在對規則的整合不足及隨時間推移而失去焦點的問題。

詳情鏈接:https://github.com/hsaest/Agent-Planning-Analysis

5、開源工具Vulnhuntr可發現Python零日漏洞,巧妙利用Claude AI

Protect AI公司推出的Vulnhuntr工具利用Claude AI幫助開發者發現Python代碼中的零日漏洞。該工具與傳統靜態分析不同,能夠追蹤用戶輸入到服務器輸出的完整調用鏈,提高漏洞檢測準確性。Vulnhuntr已在多個大型開源項目中發現零日漏洞,即將在GitHub上發佈供開發者使用。

【AiBase提要:】

🌟 Vulnhuntr是開源工具,利用Claude AI發現Python零日漏洞。

🛠️ 工具工作方式不同於靜態分析,能追蹤完整調用鏈。

🚀 Vulnhuntr已發現多個大型開源項目中的零日漏洞,即將在GitHub上發佈。

6、字節跳動迴應“實習生破壞大模型訓練”:未影響正式商業項目

字節跳動近期針對實習生破壞大模型訓練的傳聞進行了官方迴應,確認實習生惡意干擾研究項目模型訓練,但未影響正式商業項目和線上業務。公司指出傳聞嚴重誇大,已辭退實習生並通報相關機構。事件暴露安全管理問題,公司計劃大力投資AI技術。

【AiBase提要:】

🔍 實習生惡意干擾大模型訓練,未影響商業項目和線上業務。

🔒 公司確認傳聞誇大,已辭退實習生並通報相關機構。

💡 事件暴露安全管理問題,公司計劃大力投資AI技術。

7、Meta最新黑科技SPIRIT-LM:能說會寫還能懂你的情緒,這個 AI 語言模型有點強!

SPIRIT-LM 是一款具有革命性意義的多模態基礎語言模型,能夠自由混合文本和語音,理解和表達情感。它結合了文本模型的語義能力和語音模型的表達能力,完成跨模態任務,只需少量樣本即可學習新任務。SPIRIT-LM-EXPRESSIVE在情感表達方面優於基礎版,開創了多模態語言理解和生成的新可能性。

【AiBase提要:】

⚙️ SPIRIT-LM 是多模態基礎語言模型,能混合文本和語音,理解情感。

🔑 SPIRIT-LM 結合了文本模型的語義能力和語音模型的表達能力,完成跨模態任務。

💡 SPIRIT-LM-EXPRESSIVE在情感表達方面優於基礎版,開創了多模態語言理解和生成的新可能性。

詳情鏈接:https://arxiv.org/pdf/2402.05755

8、顛覆 Stable Diffusion!智源重磅發佈 Emu3,圖像、文本、視頻全拿下!

Emu3團隊發佈了一套全新的多模態模型Emu3,顛覆了傳統的擴散模型和組合模型架構,在生成和感知任務上取得了最先進的性能。該模型基於下一個token預測進行訓練,實現了多模態任務的統一,超越了特定任務模型,甚至旗艦模型。Emu3的成功爲多模態模型的未來發展指明瞭方向,也爲實現AGI帶來了新的希望。

image.png

【AiBase提要:】

🚀 Emu3基於下一個token預測進行訓練,顛覆了傳統模型架構,取得了最先進的性能。

💡 Emu3實現了多模態任務的統一,無需依賴擴散或組合架構,超越了特定任務模型和旗艦模型。

🔗 Emu3團隊開源了關鍵技術和模型,爲多模態智能領域的進一步研究提供支持。

詳情鏈接:https://github.com/baaivision/Emu3

9、Perplexity AI 尋求90億美元估值

Perplexity AI 宣佈在新一輪融資中希望將估值提升至90億美元,當前估值爲30億美元。公司面臨抄襲指控,但堅決否認。在激烈市場競爭中努力提升技術和服務水平。

image.png

【AiBase提要:】

🌟 Perplexity AI 計劃將估值提高至90億美元,吸引大量投資者關注。

💰 公司自今年初以來進行了三輪融資,迅速發展。

📰 面臨抄襲指控,公司堅決否認並保護知識產權。

10、前OpenAI CTO重磅打造新AI公司,融資目標高達1億美元

Mira Murati正籌集超過1億美元的風險投資,準備創辦新的AI創業公司。她離開OpenAI希望進行個人探索,而OpenAI在她離職後籌集了創紀錄的66億美元風險投資。期待Murati的新公司未來發展。

【AiBase提要:】

✨ Mira Murati正籌集超過1億美元的風險投資,打造新AI公司。

🚀 Murati離開OpenAI希望進行個人探索,未透露具體計劃。

📈 OpenAI在Murati離職後籌集了創紀錄的66億美元風險投資。

11、蘋果AI發展滯後兩年,計劃未來兩年全線設備引入Apple Intelligence

在今年的WWDC大會上,蘋果展示了AI新特性,但分析師稱蘋果在AI技術發展上落後競爭對手約兩年。蘋果計劃未來兩年在所有帶屏設備上推出“Apple Intelligence”功能,儘管起步較晚,但有信心迎頭趕上。

【AiBase提要:】

📅 蘋果在AI發展上落後競爭對手約兩年,正努力追趕行業標準。

💡 蘋果計劃未來兩年內在所有帶屏設備上推出“Apple Intelligence”功能。

📱 新款iPad和即將推出的iPhone都將配備支持“Apple Intelligence”的硬件。

12、北京市新增12款生成式AI服務備案,累計達94款

北京市最近新增了12款生成式人工智能服務備案,使得累計備案數量達到了94款,爲用戶帶來更多選擇與便利。已上線的AI應用需公示備案情況,包括模型名稱和備案編號。本次新增備案名單中包括快手科技公司的可靈AI和崑崙萬維科技股份有限公司的天工圖像。

image.png

【AiBase提要:】

📈 北京市新增12款生成式AI服務備案,累計達94款

🔍 已上線AI應用需公示備案情況,包括模型名稱和備案編號

📋 本次新增備案名單中包括快手科技公司的可靈AI和崑崙萬維科技股份有限公司的天工圖像