由上海人工智能實驗室發佈的“萬卷·絲路2.0”多語言多模態語料庫正式開源。該語料庫在原有的阿拉伯語、俄語、韓語、越南語、泰語等5個語種基礎上,新增了塞爾維亞語、匈牙利語、捷克語3個稀缺語料數據,涵蓋文本、圖片、音頻、視頻四大模態,數據總量超過1150萬條,音視頻時長超過2.6萬小時,成爲小語種多模態領域的重要資源。

“萬卷·絲路2.0”具有多語言、大規模、多模態、高質量的特點。它不僅擴充了語種數量,還全面升級了數據模態和總量,新增了圖片 - 文本、音頻 - 文本、視頻 - 文本、特色指令微調(SFT)四大模態數據,覆蓋多模態研究全鏈路。數據經過成熟生產管線及安全加固,結合過濾算法與當地專家人工精細化標註質檢,成爲覆蓋多模態、多領域的高質量數據集,適配文化旅遊、商業貿易、科技教育等不同場景。
此次開源的內容包括:圖片 - 文本累計開源超過200萬條;音頻 - 文本開源超過1600小時;視頻 - 文本開源超過2.5萬小時;SFT 數據開源18萬條。開源數據覆蓋了多種語種,爲開發者提供了豐富的多模態數據資源。
“萬卷·絲路2.0”展現出顯著的模型賦能效應。基於7B 參數基礎模型訓練時,模型綜合性能躍升52.3%;在700億參數的大模型訓練中,仍保持12.8% 的性能增益。該數據集使輕量化模型在多語言處理領域展現出超越大模型的卓越表現,爲多語言模型的微調提供了有力支持。
數據集地址:
https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042
一鍵微調框架:
https://github.com/modelscope/ms-swift
