OpenBMB 團隊近日推出了 MiniCPM-o2.6,這是該系列中最新、功能最強大的多模態大型語言模型(MLLM)。MiniCPM-o2.6的最大亮點在於它的8億參數,使其在視覺、語音以及多模態直播領域的性能接近於 GPT-4o-202405,成爲開源社區中多功能且高效的選擇。

image.png

MiniCPM-o2.6具備強大的輸入處理能力,能夠接受圖像、視頻、文本和音頻等多種輸入方式,並提供高質量的文本和語音輸出。

這款模型的語音模式更是新增了雙語實時對話功能,用戶可根據需求配置不同的語音,支持情感、速度和風格的控制,甚至能夠進行角色扮演和語音克隆等有趣的應用。這一系列創新使得 MiniCPM-o2.6在互動體驗上更爲豐富,用戶可享受到更爲自然和流暢的交流方式。

除了在語音對話方面的突破,MiniCPM-o2.6還在視覺處理能力上取得了顯著進展。它的強大 OCR(光學字符識別)功能和多語言支持,使得在實時視頻理解時更加高效。這種卓越的能力還首次在移動設備上實現了多模態直播,用戶可以在 iPad 等設備上進行直播,帶來更具互動性和趣味性的內容分享。

自2024年2月以來,MiniCPM 系列已經發布了六個版本,團隊旨在持續提升模型的性能與部署效率。該模型不僅在技術上有所創新,也代表了在多模態交互體驗方面的重大進展。無論是專業領域的應用,還是日常生活中的娛樂互動,MiniCPM-o2.6都將成爲用戶不可或缺的智能助手。

項目地址:https://github.com/OpenBMB/MiniCPM-o