AI日報：AutoGLM智能體可自動幫點外賣；敏神重磅更新Flux版ic-light模型；字節跳動PersonaTalk讓AI精準配音

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、智譜AI推出AutoGLM智能體:輸入指令即可模擬人類操作手機

智譜技術團隊最近推出了基於GLM技術團隊研究成果的新產品AutoGLM，這是一個智能體，能夠模擬人類操作手機執行各種任務。AutoGLM的推出標誌着人工智能在“Phone Use”領域的進步，使得AI的應用更貼近人們的日常生活。

【AiBase提要:】
🚀 AutoGLM是智譜技術團隊基於GLM技術研究成果推出的智能體，能模擬人類操作手機執行任務。
💡 AutoGLM應用場景廣泛，可在微信、淘寶、攜程、12306、美團等平臺完成各種任務，無需複雜工作流搭建。
🔧 AutoGLM技術基於自研的智能體解耦合中間界面和自進化在線課程強化學習框架，解決了任務規劃和動作執行中的挑戰。
詳情鏈接:https://xiao9905.github.io/AutoGLM

2、敏神重磅更新Flux版ic-light模型:16通道VAE突破性能，細節保留能力驚人!

IC-Light V2基於Flux架構橫空出世，帶來革命性圖像處理突破。16通道VAE和高分辨率特性讓其在細節保留和精準度方面達到新高度，展現出色的適應性。

【AiBase提要:】
✨ 革命性圖像處理突破:IC-Light V2採用16通道VAE和高分辨率特性，突破性能，細節保留能力驚人。
🌟 多場景適應性:IC-Light V2全能型工具，能處理油畫和動漫風格圖像，保持原有精髓，表現出色。
💡 強大功能支持:IC-Light V2具低光處理和陰影調節功能，爲攝影后期和專業圖像處理提供強大支持。
詳情鏈接:https://github.com/lllyasviel/IC-Light/discussions/98

3、告別配音演員?字節跳動PersonaTalk讓AI精準配音，連表情細節都完美還原!

字節跳動最新開發的PersonaTalk AI模型實現了視頻精準配音，聲音與嘴型完美同步，保留人物原有特點，讓視頻更真實自然。該模型採用注意力機制的兩階段框架，具有高度個性化的配音效果和優秀的視覺質量。然而，在處理非人類化身和大幅度面部姿勢時仍有侷限性。字節跳動計劃限制核心模型訪問權限，防止技術濫用。

【AiBase提要:】
🔊 聲音同步嘴型:PersonaTalk確保視頻中人物的嘴部動作與新語音口型完全匹配，實現完美同步。
👤 保留人物特點:PersonaTalk保留人物原有特點，包括說話方式、臉型和表情，保持視頻真實感。
🤖 適用於不同人物:PersonaTalk不需大量數據單獨訓練每個人物，適應多樣化場景，提供靈活性和便利性。
詳情鏈接:https://grisoon.github.io/PersonaTalk/

4、Meta開源長視頻LLM項目LongVU:可過濾重複幀高效精準理解長視頻內容

Meta AI團隊推出了LongVU，一種新型的時空自適應壓縮機制，旨在提升長視頻的語言理解能力。該技術利用DINOv2特徵剔除冗餘幀，通過跨模態查詢實現特徵選擇性壓縮，在各種視頻理解基準測試中表現優異，尤其在長視頻理解任務中超越其他方法。長視頻內容的快速增長需要更加高效的處理方式，LongVU的推出爲多模態理解領域帶來新的可能性。

【AiBase提要:】
📽️ LongVU是一種新型的時空自適應壓縮機制，旨在提升長視頻的語言理解能力。
🔍 該技術利用DINOv2特徵剔除冗餘幀，並通過跨模態查詢實現特徵選擇性壓縮。
🚀 LongVU在各種視頻理解基準測試中表現優異，尤其在長視頻理解任務中，超越了其他方法。
詳情鏈接:https://vision-cair.github.io/LongVU/

5、AI拿鐵來了!谷歌Gemini AI提供支持，但配方看起來有點黑暗

在菲律賓馬尼拉，Commune與谷歌菲律賓合作推出了AI輔助的Bibingka拿鐵，融合傳統節日美食風味，展現現代飲品創新的可能性。這種創新飲品讓人感受濃厚的節日氛圍，喚起對傳統美食的懷念，吸引咖啡愛好者的目光。

【AiBase提要:】
☕️ 飲品融合濃縮咖啡、蒸奶、鹹蛋等本地特色食材，呈現地道風味。
🌿 AI技術與咖啡師手工藝完美結合，展示現代飲品創新的無限可能。
🤖 Commune展示瞭如何將文化元素融入產品，彰顯品牌在季節性產品上的創意，展示AI在餐飲創意中的潛力。

6、擺脫人工標註魔咒!趣丸科技MaskGCT模型用10萬小時數據，教會AI自己說話

趣丸科技聯合香港中文大學發佈了名爲MaskGCT的全新語音合成（TTS）模型，徹底顛覆了傳統TTS模型的玩法，實現了自學成才，不再依賴人工標註。該模型採用了掩碼生成式編解碼器Transformer的架構，讓AI能靈活控制語音時長，達到了高質量、相似度和韻律的語音合成效果。

【AiBase提要:】
🔥 完全不需要人工標註，通過10萬小時未標註語音數據訓練，實現自學成才。
💡 採用Transformer架構，將語音轉換成語義特徵，再預測聲學特徵，實現高質量語音合成。
🚀 能靈活控制語音時長，模仿不同說話者風格，甚至跨語言進行語音翻譯，表現出與真人媲美的水平。
詳情鏈接:https://huggingface.co/spaces/amphion/maskgct

7、Meta推出NotebookLM開源版“NotebookLlama”

Meta最近推出了名爲NotebookLlama的新工具，是谷歌NotebookLM中備受歡迎的生成播客功能的開源版。雖然NotebookLlama能將用戶上傳的文件轉化爲互動式的播客風格摘要，但目前生成的聲音質量較低，存在機械感和聲音重疊問題。AI生成的播客仍可能含有虛假信息，這是所有AI項目普遍存在的挑戰。

【AiBase提要:】
🎧 NotebookLlama是Meta推出的開源播客生成工具，利用Llama模型處理用戶上傳的文件。
🤖 工具將文本轉換爲播客風格摘要，但聲音質量較低，存在機械感和聲音重疊問題。
📉 AI生成的播客仍可能含有虛假信息，是AI項目普遍存在的挑戰。
詳情鏈接:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

8、AI語音轉錄工具Whisper被曝存在嚴重“幻覺”

最近，OpenAI的Whisper技術驅動的AI轉錄工具在醫療行業廣受歡迎，但研究發現在約1%的轉錄中會出現“幻覺”現象，甚至編造內容。OpenAI表示正在努力改善工具性能，特別是減少幻覺現象。

【AiBase提要:】
🌟 Whisper轉錄工具在醫療行業廣泛使用，已記錄700萬次醫學對話。
⚠️ 研究發現Whisper在約1%的轉錄中會出現“幻覺”，有時生成毫無意義內容。
🔍 OpenAI表示持續努力改善工具性能，尤其在減少幻覺現象方面。

9、谷歌開發AI工具“Project Jarvis”，輕鬆操控你的電腦和瀏覽器!

谷歌最新研發的AI工具“Project Jarvis”將改變人們與電腦的互動方式，讓AI應用變得更加簡單和便利。用戶只需輸入簡單命令，AI即可自動完成各種在線任務，降低了使用門檻。然而，隱私和安全問題也需引起關注，谷歌需要加強保障措施以保護用戶數據安全。

【AiBase提要:】
🤖 谷歌研發的“Project Jarvis” AI工具可接管瀏覽器和電腦，簡化操作流程。
🖥️ 用戶通過簡單命令，AI自動完成在線任務，提高工作效率。
🔒 谷歌需加強隱私和安全保護，建立完善措施應對潛在風險。

10、蘋果新AI系統Ferret-UI2刷新UI交互體驗

蘋果公司發佈的新一代人工智能系統Ferret-UI2在UI元素識別方面取得重大突破，展現出卓越的性能表現。該系統最大特點在於智能理解用戶意圖，實現自然語言指令操作。技術架構自適應多平臺，提供智能算法調整圖像分辨率，保證運算效率。競爭激烈的UI交互AI領域，蘋果的CAMPHOR框架增強了系統處理複雜任務能力，展望智能人機交互未來。

【AiBase提要:】
🚀 Ferret-UI2在UI元素識別領域取得重大突破，測試得分領先GPT-4V，展現卓越性能。
🔍 Ferret-UI2具備智能理解用戶意圖的能力，通過自然語言指令操作界面，提升用戶體驗。
⚙️ Ferret-UI2技術架構自適應多平臺，智能算法調整圖像分辨率，保證運算效率。

11、Cohere推出首個圖文一體化搜索模型Embed3

Cohere公司最新推出的Embed3搜索模型實現了圖像搜索與文本檢索的無縫集成，爲企業帶來了革命性變革。新系統採用統一存儲架構解決了維護多個獨立數據庫的問題，支持主流圖片格式並將商業數據轉換爲向量表示，大幅提升了檢索效率。更新後的模型支持超過100種語言，具備強大的跨平臺兼容性。

【AiBase提要:】
🔍 圖像搜索與文本檢索無縫集成，革命性變革企業搜索方式。
💾 統一存儲架構解決維護多個獨立數據庫問題，支持主流圖片格式。
⚙️ 商業數據轉換爲向量表示，提升檢索效率。支持超過100種語言，跨平臺兼容性強。

12、GPT-4超越人類分析師，財務預測準確率達到60%

這篇文章介紹了芝加哥大學布斯商學院的研究結果，表明OpenAI的GPT-4在財務分析和預測方面超越了人類分析師，準確率達到60%。研究採用了名爲“思維鏈”的提示方式，指導GPT-4識別財務趨勢，展現出穩健的分析能力。應用GPT-4的交易策略取得了顯著的市場超越和高額收益，爲未來投資者帶來新的盈利潛力。這項研究爲生成式AI在金融領域的應用指明瞭方向，預示着金融行業可能迎來全新的變革。

【AiBase提要:】
📈 GPT-4在財務分析和預測中超越人類分析師，準確率達到60%
💡 研究利用“思維鏈”提示方法，幫助GPT-4有效識別財務趨勢
💰 應用GPT-4的交易策略實現了顯著的市場超越，產生了高額收益

13、自動駕駛也要玩“元宇宙”?極佳科技用AI腦補，讓4D場景重建更絲滑!

極佳科技推出的DriveDreamer4D框架利用世界模型的先驗知識提升4D駕駛場景重建效果，解決傳統方法在複雜路況下容易翻車的問題。實驗證明DriveDreamer4D在處理複雜路況時效果優於傳統方法，提高重建圖像保真度和準確性。雖然仍處於研究階段，但未來有望成爲自動駕駛領域不可或缺的一部分。

【AiBase提要:】
🚗 DriveDreamer4D框架利用世界模型的先驗知識提升4D駕駛場景重建效果，避免傳統方法依賴訓練數據導致翻車問題。
🧠 世界模型作爲AI大腦，預測未來可能發生情況，讓4D場景重建模型見多識廣，不再翻車。
🛣️ DriveDreamer4D設計了新軌跡生成模塊（NTGM），自動生成符合交通規則的軌跡，提高模型在複雜路況下的表現。
詳情鏈接:https://arxiv.org/pdf/2410.13571

14、小米15內存標配升級，端側AI對內存要求更高

隨着人工智能時代的全面到來，智能手機硬件配置正在經歷革命。小米15系列取消8GB內存版本，轉爲12GB內存標準配置，反映移動終端AI發展新方向。硬件規格升級帶來更優秀顯示效果和更高續航能力。小米發佈會展示16款新品，深度佈局人車家全生態戰略。消費者選購新機建議選擇更大內存版本適應未來AI應用普及，注意不同品牌內存定價差異。

【AiBase提要:】
📱 端側AI需求推動內存升級，小米15系列將以12GB內存作爲標準配置起點。
🔋 硬件規格升級，小米15和15Pro配備更優秀的顯示屏和M9發光材料，續航能力分別提升23%和38%。
🚀 小米發佈會展示16款新品，包括手機產品、小米澎湃OS2、智能穿戴設備等，體現全生態戰略深度佈局。

AI日報：AutoGLM智能體可自動幫點外賣；敏神重磅更新Flux版ic-light模型；字節跳動PersonaTalk讓AI精準配音

相關推薦

智譜發佈開源大模型GLM-4.6:編程能力對齊Claude Sonnet4

智譜AI發佈革命性產品AutoGLM 2.0 語音一句話即可代替雙手操控全網

智譜AI重磅開源GLM-4.1V-Thinking！多模態推理新王者，挑戰全球頂尖模型

智譜AI開源GLM-4.1V-Thinking:多模態推理模型再突破

「6月30日AI日報」百度開源文心大模型4.5系列；通義千問多模態生成模型Qwen VLo