昨天,上海AI實驗室給我們帶來了一個巨大的驚喜——開源了一款名爲InternLM-XComposer-2.5(簡稱IXC-2.5)的多模態大型語言模型。這不是一個普通的模型,它在多個方面展現出了超凡的能力,特別是在超高分辨率圖像理解、細粒度視頻理解和多輪圖像對話上,它的表現讓人印象深刻。
更令人稱讚的是,IXC-2.5對網頁製作和圖文混排文章進行了特別的優化,這對於那些需要在網頁上展示豐富內容的創作者來說,無疑是一個巨大的福音。而且,IXC-2.5的開源,也填補了國內在多模態LLM領域的空白。
IXC-2.5模型的特點:
長上下文處理:IXC-2.5原生支持24K標記的輸入,並可擴展到96K,這意味着它能夠處理超長的文本和圖像輸入,爲用戶提供了更大的創作空間。
多樣化視覺能力:它不僅支持超高分辨率的圖像理解,還能進行細粒度的視頻理解和多輪多圖對話,這在以往的模型中是難以想象的。
生成能力:IXC-2.5能夠生成網頁和高質量的圖文文章,將文本和圖像的結合提升到了一個新的高度。
模型架構:它包括了一個輕量級的視覺編碼器、一個大型語言模型,以及部分LoRA對齊技術,這些技術的結合,讓IXC-2.5在性能上有了顯著的提升。
測試結果:在28個基準測試中,IXC-2.5在16項測試中超過了現有的開源模型,另外16項測試中的表現接近或超過了GPT-4V和Gemini Pro,這足以證明其強大的實力。
多輪對話演示
IXC-2.5的研發是上海人工智能實驗室、香港中文大學、商湯科技集團以及清華大學的聯合團隊的傑作。這個模型的設計初衷是爲了支持長上下文的輸入與輸出,以應對日益複雜的文本圖像理解和創作任務。
在圖像處理方面,IXC-2.5採用了統一的動態圖像分割策略,能夠適應任意分辨率和縱橫比的圖像。而在視頻處理方面,它能夠將視頻中的幀沿短邊拼接,形成高分辨率圖像,同時保留幀的索引以提供時間關係。
圖文混排演示
預訓練階段,IXC-2.5通過位置編碼外推,將上下文窗口擴展到96K,這在人機交互和內容創作方面展現出了卓越的能力。在監督式微調階段,IXC-2.5通過特定的數據集進行訓練,以處理極大的圖像和視頻。
此外,IXC-2.5還擴展了其在網頁生成方面的應用,能夠根據視覺截圖、自由形式指令或簡歷文檔自動構建網頁。在文本圖像文章創作方面,IXC-2.5通過結合多種技術,提出了一種可擴展的流程,以生成高質量和穩定的文本圖像文章。
經過一系列綜合實驗,IXC-2.5在多個基準測試中表現出色,它在視頻理解、結構化高分辨率圖像理解、多輪多圖對話和通用視覺問答等任務上,展現出了強大的競爭力。
IXC-2.5的開源,不僅是技術上的一次飛躍,更是對整個人工智能領域的一大貢獻。它讓我們看到了多模態LLM的無限可能,也爲未來的AI應用開闢了新的道路。
項目地址:https://top.aibase.com/tool/internlm-xcomposer-2-5
論文地址:https://arxiv.org/pdf/2407.03320