清華與北大合作發佈長視頻理解基準測試：LVBench

站長之家（ChinaZ.com）6月17日消息:近日，智譜、清華大學和北京大學合作推出了一個名爲LVBench的長視頻理解基準測試項目。現有的多模態大型語言模型雖然在短視頻理解方面取得了長足進步，但在處理長達數小時的長視頻時仍面臨挑戰。爲彌補這一空白，LVBench應運而生。

QQ截圖20240617145826.png

這個項目包含了6個主要類別和21個子類別的數小時QA數據，涵蓋了來自公開來源的電視劇、體育轉播和日常監控錄像等不同類型的視頻內容。這些數據都經過高質量的標註，並使用LLM篩選出具有挑戰性的問題。據悉，LVBench數據集涵蓋了視頻摘要、事件檢測、角色識別和場景理解等多種任務。

QQ截圖20240617145801.png

LVBench基準的推出，不僅旨在檢驗模型在長視頻場景下的推理和運作能力，更將推動相關技術的突破和創新，爲實現長視頻領域的具身智能決策、深度影視評論和專業體育解說等應用需求注入新動力。

許多研究機構已在LVBench數據集上開展工作，通過建立面向長視頻任務的大模型，逐步拓展人工智能在理解長期信息流方面的邊界，爲視頻理解、多模態學習等領域的持續探索注入新的活力。

github:https://github.com/THUDM/LVBench

項目:https://lvbench.github.io

論文:https://arxiv.org/abs/2406.08035

面壁智能推MiniCPM-o 2.6：一款適用於手機的多模態智能大模型

OpenBMB 團隊近日推出了 MiniCPM-o2.6，這是該系列中最新、功能最強大的多模態大型語言模型（MLLM）。MiniCPM-o2.6的最大亮點在於它的8億參數，使其在視覺、語音以及多模態直播領域的性能接近於 GPT-4o-202405，成爲開源社區中多功能且高效的選擇。MiniCPM-o2.6具備強大的輸入處理能力，能夠接受圖像、視頻、文本和音頻等多種輸入方式，並提供高質量的文本和語音輸出。這款模型的語音模式更是新增了雙語實時對話功能，用戶可根據需求配置不同的語音，支持情感、速度和風格的控制，甚至能夠進

阿里巴巴達摩院推出電商場景多模態大模型Valley 2

阿里巴巴達摩院近日推出了一款名爲Valley2的多模態大型語言模型，該模型基於電商場景設計，旨在通過可擴展的視覺-語言架構，提升各領域性能並拓展電商與短視頻場景的應用邊界。Valley2採用了Qwen2.5作爲LLM主幹，搭配SigLIP-384視覺編碼器，結合MLP層和卷積進行高效特徵轉換。

中文視覺語音開源模型VITA-1.5發佈具備類GPT 4o高級語音和視覺能力

最近，多模態大型語言模型（MLLM）取得了顯著進展，特別是在視覺和文本模態的集成方面。但隨着人機交互的日益普及，語音模態的重要性也日益凸顯，尤其是在多模態對話系統中。語音不僅是信息傳輸的關鍵媒介，還能顯著提高交互的自然性和便利性。然而，由於視覺和語音數據在本質上的差異，將它們整合到 MLLM 中並非易事。例如，視覺數據傳達空間信息，而語音數據則傳達時間序列中的動態變化。這些根本性的差異給兩種模態的同步優化帶來了挑戰，常常導致訓練過程中的衝突。此

清華與北大合作發佈長視頻理解基準測試：LVBench

相關推薦

上海AI實驗室開源InternVL3系列多模態大型語言模型

面壁智能推MiniCPM-o 2.6：一款適用於手機的多模態智能大模型

阿里巴巴達摩院推出電商場景多模態大模型Valley 2

中文視覺語音開源模型VITA-1.5發佈具備類GPT 4o高級語音和視覺能力

書生·萬象多模態大模型InternVL 2.5開源性能媲美GPT-4o

清華與北大合作發佈長視頻理解基準測試：LVBench

相關推薦

上海AI實驗室開源InternVL3系列多模態大型語言模型

面壁智能推MiniCPM-o 2.6：一款適用於手機的多模態智能大模型

阿里巴巴達摩院推出電商場景多模態大模型Valley 2

中文視覺語音開源模型VITA-1.5發佈 具備類GPT 4o高級語音和視覺能力

書生·萬象多模態大模型InternVL 2.5開源 性能媲美GPT-4o

中文視覺語音開源模型VITA-1.5發佈具備類GPT 4o高級語音和視覺能力

書生·萬象多模態大模型InternVL 2.5開源性能媲美GPT-4o