阿里巴巴達摩院近日推出了一款名爲Valley2的多模態大型語言模型,該模型基於電商場景設計,旨在通過可擴展的視覺-語言架構,提升各領域性能並拓展電商與短視頻場景的應用邊界。Valley2採用了Qwen2.5作爲LLM主幹,搭配SigLIP-384視覺編碼器,結合MLP層和卷積進行高效特徵轉換。其創新之處在於引入了大視覺詞彙、卷積適配器(ConvAdapter)和Eagle模塊,增強了處理多樣化真實世界輸入的靈活性及訓練推理效率。

微信截圖_20250115084005.png

Valley2的數據由OneVision風格數據、針對電商和短視頻領域的數據以及用於複雜問題解決的鏈式思維(CoT)數據組成。訓練過程分爲文本-視覺對齊、高質量知識學習、指令微調和鏈式思維後訓練四個階段。在實驗中,Valley2於多個公開基準測試中表現卓越,尤其在MMBench、MMStar、MathVista等基準上得分頗高,在Ecom-VQA基準測試中也超越了其他同規模模型。

未來,阿里巴巴達摩院計劃發佈包含文本、圖像、視頻和音頻模態的全能模型,並引入基於Valley的多模態嵌入訓練方法,以支持下游檢索和探測應用。

Valley2的推出標誌着多模態大型語言模型領域的重要進展,展現了通過結構改進、數據集構建及訓練策略優化來提升模型性能的可能性。

模型鏈接:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

代碼鏈接:

https://github.com/bytedance/Valley

論文鏈接:

https://arxiv.org/abs/2501.05901