在開源大模型的競爭中,阿里巴巴推出了其最新的多模態模型 Qwen2.5-Omni-3B。這款模型的顯著特點是顯存使用減少了50%,在同等處理能力下,更加適合普通消費者的 GPU 設備。這一創新標誌着阿里在多模態人工智能領域的進一步突破。
Qwen2.5-Omni 是一款端到端的多模態模型,能夠同時處理文本、圖像、音頻和視頻等多種信息類型。得益於其獨特的 “Thinker-Talker” 架構,模型能夠在實時互動中靈活運用多種輸入,生成相應的文本和自然語音迴應。這種設計使得用戶在與系統的互動中,能夠獲得更流暢、更自然的體驗。
顯存優化,兼容性增強
與 Qwen2.5-Omni-7B 模型相比,3B 版本在處理長上下文序列時,顯存顯著降低,使得其在24GB 的消費級 GPU 上仍能支持長達30秒的音視頻交互。這一優化不僅提升了模型的適用性,也讓更多用戶能夠在個人計算機上實現高效的多模態處理,解決了以往因顯存不足導致的使用障礙。
實時語音與視頻聊天功能
Qwen2.5-Omni 的核心優勢之一是其支持完全實時的語音和視頻聊天功能。該模型能夠處理分塊輸入並即時輸出響應,展現出卓越的魯棒性和自然度。這種技術使得在語音生成方面,Qwen2.5-Omni 的表現超越了許多現有的流式和非流式模型,爲用戶提供了更加人性化的互動體驗。
在多模態任務中,Qwen2.5-Omni 展現出令人矚目的性能,無論是在單一模態任務,如語音識別、翻譯、音頻理解、圖像推理,還是在需要多模態融合的複雜任務中,該模型都能表現出色。在與同規模的單模態模型對比中,Qwen2.5-Omni 不僅在音頻能力上超越了 Qwen2-Audio,還在圖像和視頻任務中達到了與 Qwen2.5-VL-7B 相當的水平,證明了其多模態處理的強大能力。
github地址:https://github.com/QwenLM/Qwen2.5-Omni
在線體驗:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo