上海AI lab開源超強多模態LLM InternLM-XComposer-2.5

昨天，上海AI實驗室給我們帶來了一個巨大的驚喜——開源了一款名爲InternLM-XComposer-2.5（簡稱IXC-2.5）的多模態大型語言模型。這不是一個普通的模型，它在多個方面展現出了超凡的能力，特別是在超高分辨率圖像理解、細粒度視頻理解和多輪圖像對話上，它的表現讓人印象深刻。

更令人稱讚的是，IXC-2.5對網頁製作和圖文混排文章進行了特別的優化，這對於那些需要在網頁上展示豐富內容的創作者來說，無疑是一個巨大的福音。而且，IXC-2.5的開源，也填補了國內在多模態LLM領域的空白。

IXC-2.5模型的特點:

長上下文處理:IXC-2.5原生支持24K標記的輸入，並可擴展到96K，這意味着它能夠處理超長的文本和圖像輸入，爲用戶提供了更大的創作空間。

多樣化視覺能力:它不僅支持超高分辨率的圖像理解，還能進行細粒度的視頻理解和多輪多圖對話，這在以往的模型中是難以想象的。

生成能力:IXC-2.5能夠生成網頁和高質量的圖文文章，將文本和圖像的結合提升到了一個新的高度。

模型架構:它包括了一個輕量級的視覺編碼器、一個大型語言模型，以及部分LoRA對齊技術，這些技術的結合，讓IXC-2.5在性能上有了顯著的提升。

測試結果:在28個基準測試中，IXC-2.5在16項測試中超過了現有的開源模型，另外16項測試中的表現接近或超過了GPT-4V和Gemini Pro，這足以證明其強大的實力。

多輪對話演示

IXC-2.5的研發是上海人工智能實驗室、香港中文大學、商湯科技集團以及清華大學的聯合團隊的傑作。這個模型的設計初衷是爲了支持長上下文的輸入與輸出，以應對日益複雜的文本圖像理解和創作任務。

在圖像處理方面，IXC-2.5採用了統一的動態圖像分割策略，能夠適應任意分辨率和縱橫比的圖像。而在視頻處理方面，它能夠將視頻中的幀沿短邊拼接，形成高分辨率圖像，同時保留幀的索引以提供時間關係。

圖文混排演示

預訓練階段，IXC-2.5通過位置編碼外推，將上下文窗口擴展到96K，這在人機交互和內容創作方面展現出了卓越的能力。在監督式微調階段，IXC-2.5通過特定的數據集進行訓練，以處理極大的圖像和視頻。

此外，IXC-2.5還擴展了其在網頁生成方面的應用，能夠根據視覺截圖、自由形式指令或簡歷文檔自動構建網頁。在文本圖像文章創作方面，IXC-2.5通過結合多種技術，提出了一種可擴展的流程，以生成高質量和穩定的文本圖像文章。

經過一系列綜合實驗，IXC-2.5在多個基準測試中表現出色，它在視頻理解、結構化高分辨率圖像理解、多輪多圖對話和通用視覺問答等任務上，展現出了強大的競爭力。

IXC-2.5的開源，不僅是技術上的一次飛躍，更是對整個人工智能領域的一大貢獻。它讓我們看到了多模態LLM的無限可能，也爲未來的AI應用開闢了新的道路。

論文地址：https://arxiv.org/pdf/2407.03320

科大訊飛劉慶峯：人工智能替代將大規模出現，呼籲提前設計社會救援體系