在視頻理解領域,傳統的AI模型往往只能處理時長較短的視頻,面對幾小時甚至更長的視頻內容時顯得力不從心。這主要是因爲這些模型在處理長視頻時會遇到“噪聲與冗餘”以及“內存與計算”限制。現在,一種名爲Goldfish的新技術改變了這一局面。

image.png


產品入口:https://top.aibase.com/tool/goldfish

Goldfish是一種專門設計用於處理任意長度視頻的方法。它採用了一種高效的檢索機制,可以先從長視頻中提取出與指令最相關的前K個視頻片段,然後基於這些片段生成最終的回答。這樣,Goldfish能夠高效地處理如電影或電視劇這樣的長視頻內容。

image.png

爲了實現這一目標,Goldfish團隊還開發了MiniGPT4-Video,這是一種可以爲視頻片段生成詳細描述的工具。通過將視頻幀和字幕結合在一起,MiniGPT4-Video可以準確地理解視頻中的視覺和文本信息,從而提升了處理長視頻的能力。

image.png

此外,團隊還提出了TVQA-long這一基準測試,用於評估模型在理解長視頻方面的能力。Goldfish在這一測試中的準確率達到了41.78%,超越了之前的技術。

不僅如此,Goldfish在短視頻理解方面也表現優異。在MSVD、MSRVTT、TGIF和TVQA等多個短視頻基準測試中,Goldfish的表現都超過了現有的最先進方法,顯示了它在短視頻處理上的強大實力。

Goldfish通過創新的檢索機制和高效的描述生成方法,成功克服了處理長視頻的難題,同時在短視頻理解方面也取得了顯著突破。

**劃重點:**

Goldfish通過高效的檢索機制和MiniGPT4-Video的描述生成技術,成功處理了任意長度的視頻,解決了傳統模型在處理長視頻時的困難。

在TVQA-long基準測試中,Goldfish的準確率達到了41.78%,超越了之前的技術水平,展示了其強大的處理能力。

Goldfish在多個短視頻基準測試中表現優異,超越了現有最先進的方法,證明了其在短視頻理解方面的綜合能力。