相關推薦
IBM發佈Granite 4.0 3B Vision:企業級文檔數據提取的新利器
IBM發佈Granite 4.0 3B Vision視覺語言模型,擁有30億參數,專爲企業級複雜文檔數據提取優化。該模型針對金融、法律、醫療等行業非結構化數據處理難題,在複雜表格、掃描件及多模態佈局文檔中表現突出,通過結合視覺理解與語言生成,精準識別並提取關鍵信息。
Apr 2, 2026
218.4k
Suno 壓力大了!騰訊聯手清華髮布 SongGeneration 2,音素錯誤率低至 8.55%
騰訊與清華大學聯合推出AI音樂模型SongGeneration2,在技術架構和音樂質量上實現重大突破,顯著超越現有開源模型,甚至媲美頂級商業產品,有效解決了AI音樂的“塑料感”問題。
Mar 10, 2026
175.2k
AI 視覺模型深入“搬磚”一線:Bedrock Robotics 聯手 AWS 破解建築業用工荒
初創公司Bedrock Robotics與AWS合作,利用視覺語言模型(VLMs)解決了重型設備自動駕駛系統開發中的關鍵難題——海量視頻數據標註。傳統方法依賴人工標註數百萬小時監控視頻,而新技術顯著提升了施工自動化系統的訓練效率。
Feb 24, 2026
131.2k
挖掘視頻“暗數據”!谷歌前員工創辦 InfiniMind,助企業解鎖 PB 級視頻資產
東京初創公司InfiniMind獲580萬美元種子輪融資,由前谷歌員工創立,致力於開發AI基礎設施,將海量未利用的視頻音頻“暗數據”轉化爲可搜索的結構化商業智能,應對企業數據處理挑戰。
Feb 10, 2026
178.0k
一張打印紙竟能“劫持”自動駕駛:視覺語言模型暴露嚴重安全漏洞
自動駕駛汽車依賴路標識別,但加州大學研究揭示其致命弱點:攻擊者通過打印特定文本的標識,就能利用視覺語言模型漏洞,誘導車輛做出危險決策,甚至駛向行人。這種“CHAI”攻擊暴露了AI系統對視覺指令的過度依賴風險。
Feb 2, 2026
173.2k
