近日,浙江大學與阿里巴巴達摩院聯合發佈了一項引人矚目的研究,旨在通過教學視頻創建高質量的多模態教科書。這一創新的研究成果不僅爲大規模語言模型(VLMs)的訓練提供了新的思路,也可能改變教育資源的利用方式。
隨着人工智能技術的迅猛發展,VLMs 的預訓練語料主要依賴圖文對數據與圖文交織語料。然而,當前的這些數據多來自網頁,文本與圖像的關聯性較弱,知識密度也相對較低,無法有效支持複雜的視覺推理。

爲了應對這一挑戰,研究團隊決定從互聯網上海量的教學視頻中提煉高質量的知識語料。他們收集了超過15.9萬個教學視頻,經過精細的過濾和處理,最終保留了75,000個高質量視頻,涵蓋數學、物理、化學等多個學科,總時長超過22,000小時。
研究者們設計了一條複雜的 “視頻到教科書” 處理管道。首先,使用自動語音識別(ASR)技術將視頻中的講解內容轉錄爲文本,接着通過圖像分析和文字匹配,篩選出與知識點高度相關的片段。最終,這些處理過的關鍵幀、OCR 文本和轉錄文本被交錯組織,形成了一個內容豐富、結構嚴謹的多模態教科書。

這一研究的初步結果顯示,與以往的網頁中心數據集相比,新生成的教科書數據集在知識密度和圖像關聯性上顯著提升,爲 VLMs 的學習提供了更爲堅實的基礎。此外,研究還引起了學術界的廣泛關注,相關數據集在 Hugging Face 平臺上迅速攀升至熱門榜單,短短兩週內下載量便超過7000次。
通過這一創新的嘗試,研究者們希望不僅能推動 VLMs 的發展,更能在教育資源的整合與應用上開啓新的可能性。
論文地址:https://arxiv.org/pdf/2501.00958
