最近,書生·浦語靈筆(InternLM-XComposer)多模態大模型升級2.5版本,這款由上海人工智能實驗室領銜研發的模型,以其卓越的長上下文輸入和輸出能力,爲文本圖像理解和創作應用帶來了革命性的突破。

IXC-2.5能夠在長達96K的長上下文中游刃有餘,這得益於其訓練時使用的24K交錯圖像-文本數據。這種長上下文能力,讓IXC-2.5在需要廣泛輸入和輸出上下文的任務中表現出色。

image.png

與前一版本相比,IXC-2.5在視覺語言理解方面進行了三項重大升級:

超高分辨率理解:IXC-2.5通過內生的560×560ViT視覺編碼器,支持任意縱橫比的高分辨率圖像。

細粒度視頻理解:將視頻視爲由數十到數百幀組成的超高分辨率複合圖像,通過密集採樣和更高分辨率捕捉細節。

多輪多圖對話:支持自由形式的多輪多圖對話,與人類進行自然互動。

image.png

除了理解能力的提升,IXC-2.5還擴展了兩項引人注目的應用,使用額外的LoRA參數進行文本圖像創作:

製作網頁:根據文本圖像指令,IXC-2.5能夠編寫HTML、CSS和JavaScript源代碼,創建網頁。

撰寫高質量圖文文章:利用特別設計的Chain-of-Thought(CoT)和Direct Preference Optimization(DPO)技術,顯著提升寫作內容的質量。

IXC-2.5在28個基準測試中進行了評估,它在16個基準測試中超越了現有的開源最先進模型。此外,它在16個關鍵任務中與GPT-4V和Gemini Pro的表現相近或有所超越。這一成績充分證明了IXC-2.5的強大性能和廣泛的應用潛力。

論文地址:https://arxiv.org/pdf/2407.03320

項目地址:https://github.com/InternLM/InternLM-XComposer