智源推出小時級超長視頻理解大模型Video-XL

AIbase基地

發布於AI新聞資訊 · 1 分鐘閱讀 · Jul 16, 2025

北京智源人工智能研究院聯合上海交通大學、中國人民大學、北京大學和北京郵電大學等高校推出了一款名爲Video-XL的超長視頻理解大模型。這款模型是多模態大模型核心能力的重要展示，也是向通用人工智能（AGI）邁進的關鍵步驟。與現有多模態大模型相比，Video-XL在處理超過10分鐘的長視頻時，展現了更優的性能和效率。

微信截圖_20241028161117.png

Video-XL利用語言模型（LLM）的原生能力，對長視覺序列進行壓縮，保留了短視頻理解的能力，並在長視頻理解上顯示出了卓越的泛化能力。該模型在多個主流長視頻理解基準評測的多項任務中均排名第一。Video-XL在效率與性能之間實現了良好平衡，僅需一塊80G顯存的顯卡即可處理2048幀輸入，對小時級長度視頻進行採樣，並在視頻“海中撈針”任務中取得了接近95%的準確率。

微信截圖_20241028161127.png

Video-XL有望在電影摘要、視頻異常檢測、廣告植入檢測等應用場景中展現廣泛的應用價值，成爲長視頻理解的得力助手。該模型的推出，標誌着長視頻理解技術在效率和準確性上邁出了重要一步，爲未來長視頻內容的自動化處理和分析提供了強有力的技術支持。

目前，Video-XL的模型代碼已經開源，以促進全球多模態視頻理解研究社區的合作和技術共享。

論文標題:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

論文鏈接:https://arxiv.org/abs/2409.14485

模型鏈接:https://huggingface.co/sy1998/Video_XL

項目鏈接:https://github.com/VectorSpaceLab/Video-XL

AI重大發現：最先進視覺模型在基礎視覺推理能力上仍顯不足

來自德國達姆施塔特工業大學的最新研究揭示了一個令人深思的現象:即便是當前最先進的AI圖像模型，在面對簡單的視覺推理任務時也會出現明顯失誤。這項研究結果對AI視覺能力的評估標準提出了新的思考。研究團隊採用了由俄羅斯科學家Michail Bongard設計的Bongard問題作爲測試工具。這類視覺謎題由12張簡單圖像組成，分爲兩組，要求識別出區分這兩組的規則。對於大多數人來說，這種抽象推理任務並不困難，但AI模型的表現卻令人意外。即便是目前被認爲最先進的多模態模型GPT-4o，在100個

谷歌預計12月份推出 Gemini 2.0，升級幅度可能不大

谷歌最近在緊鑼密鼓地準備推出他們的最新語言模型 Gemini2.0，預計將在12月份與大家見面。根據來自《The Verge》的消息來源，儘管 Gemini2.0可能不會帶來我們期待的重大性能提升，但還是會推出一些有趣的新功能。與此同時，有消息稱一些商業客戶已經提前獲得了這個新模型的使用權限。在 AI 領域，其他公司也在積極推進自的項目。比如，埃隆・馬斯克的 xAI 利用在其孟菲斯超級計算中心的100，000個 Nvidia H100芯片來訓練 Grok3，而 Meta 則在用更多的計算資源訓練 Llama4。谷歌在其旗艦語言模型

OpenAI CEO 怒斥媒體:新AI模型Orion發佈消息純屬幻想

最近，OpenAI 的首席執行官山姆・阿爾特曼（Sam Altman）對一則關於新 AI 模型 “Orion” 即將發佈的媒體報道進行了強烈反駁，稱其爲 “純幻想”。在社交媒體平臺 X（前身爲 Twitter）上，阿爾特曼表示，媒體願意發佈這樣 “隨機幻想” 的消息讓他感到非常不滿。這一事件源於《The Verge》的一篇報道，該文援引匿名消息源，聲稱 OpenAI 計劃在12月發佈一款名爲 Orion 的新 AI 模型，並且微軟的工程師們已經在爲11月的集成工作做準備。微軟是 OpenAI 的最大投資者，最近也公佈了將於11月推出基於代

小米15內存標配升級，端側AI對內存要求更高

隨着人工智能時代的全面到來，智能手機硬件配置正在經歷一場靜默的革命。小米科技近日宣佈，即將發佈的小米15系列將取消8GB內存版本，轉而以12GB內存作爲標準配置起點，這一決策背後折射出移動終端AI發展的新方向。小米公司王騰對此作出解釋，端側AI大模型對內存的需求正在顯著提升。爲了確保AI功能的流暢運行，手機需要在運行內存中持續加載AI模型，這使得更大容量的內存成爲必要配置。這一趨勢在整個行業中已經顯現，如iPhone16系列已全線升級至8GB內存，以支持其Apple Intelligen

突破性跨越：三星24Gb GDDR7問世，引領AI算力革命

三星電子近日宣佈成功研發全球首款24Gb GDDR7DRAM，這一重大突破不僅標誌着存儲技術進入新紀元，更將爲快速發展的AI領域注入強勁動力。這款新型存儲芯片採用第五代10納米級製程工藝，在保持與前代產品相同封裝尺寸的同時，實現了50%的單元密度提升。通過創新性地引入脈衝幅度調製（PAM3）信號技術，數據傳輸速度飆升至40Gbps，較前代產品提升了25%。三星計劃於今年在下一代AI計算系統中開展測試，並預計在明年初實現商業化量產。這一技術突破恰逢AI領域快速發展之際。OpenAI於2023年11

Meta開源長視頻LLM項目LongVU：可過濾重複幀高效精準理解長視頻內容

最近，Meta AI 團隊帶來了 LongVU，這是一種新穎的時空自適應壓縮機制，旨在提升長視頻的語言理解能力。傳統的多模態大型語言模型（MLLMs）在處理長視頻時面臨着上下文長度的限制，而 LongVU 正是爲了解決這一難題而誕生。LongVU 的工作原理主要通過過濾重複幀、跨幀token壓縮等方法來高效使用上下文長度，能夠在保持視頻視覺細節的同時減少視頻中的冗餘信息。具體來說，團隊使用 DINOv2的特徵來剔除那些高度相似的冗餘幀。接着，通過文本引導的跨模態查詢，實現了選擇性地減少幀特徵

智源推出小時級超長視頻理解大模型Video-XL

相關AI新聞推薦

AI重大發現：最先進視覺模型在基礎視覺推理能力上仍顯不足

​谷歌預計12月份推出 Gemini 2.0，升級幅度可能不大

​OpenAI CEO 怒斥媒體:新AI模型Orion發佈消息純屬幻想

小米15內存標配升級，端側AI對內存要求更高

突破性跨越：三星24Gb GDDR7問世，引領AI算力革命

Meta開源長視頻LLM項目LongVU：可過濾重複幀 高效精準理解長視頻內容

谷歌預計12月份推出 Gemini 2.0，升級幅度可能不大

OpenAI CEO 怒斥媒體:新AI模型Orion發佈消息純屬幻想

Meta開源長視頻LLM項目LongVU：可過濾重複幀高效精準理解長視頻內容