相关推荐
上海AI实验室开源InternVL3系列多模态大型语言模型
OpenGVLab开源发布了InternVL3系列模型,这标志着多模态大型语言模型(MLLM)领域迎来了新的里程碑。InternVL3系列包含从1B到78B共7个尺寸的模型,能够同时处理文字、图片、视频等多种信息,展现出卓越的整体性能。
Meta最新音频大模型SPIRIT LM,让AI不止能说会道,还能“声情并茂”!
Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型,该模型能够自由混合文本和语音,为音频和文本的多模态任务打开了新的可能性。SPIRIT LM基于一个70亿参数的预训练文本语言模型,通过在文本和语音单元上进行持续训练,扩展到语音模态。它可以像文本大模型一样理解和生成文本,同时还能理解和生成语音,甚至可以把文本和语音混合在一起,创造出各种神奇的效果! 比如,你可以用它来做语音识别,把语音转换成文字;也可以用它来做语音合成,把文字转换成语音;还可以用它来做
Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解
最近,Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加,如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现,旨在提升视频理解的效率和效果,适用于从自动驾驶到娱乐等各个行业。传统的视频理解模型往往是逐帧处理视频,生成大量的视觉信息。这一过程不仅消耗了大量的计算资源,还极大地限制了处理长视频的能力。随着视频数据量的不断增长,这种方法变得愈发低效,因此,找到一种既能捕捉到视频的关键信息,又能
零一万物发布 Yi-VL 多模态语言模型 包括两个版本
["零一万物 Yi-VL 多模态语言模型上线,包括 Yi-VL-34B 和 Yi-VL-6B 两个版本","Yi-VL 模型在图文理解和对话生成方面具备卓越能力","Yi-VL 模型在英文和中文数据集上取得领先成绩","Yi-VL-34B 以 41.6% 的准确率超越其他多模态大模型","Yi-VL 模型基于 LLaVA 架构,具备强大的语言理解和生成能力"]
新加坡国立大学发布开源多模态语言模型 NExT-GPT,助力多媒体 AI 应用发展
["NExT-GPT 是新加坡国立大学开源的多模态语言模型,支持处理文本、图像、视频和音频,为多媒体人工智能应用提供强大支持。","采用三层架构,包括线性投影、Vicuna LLM 核心和模态特定的转换层,通过 MosIT 技术进行中间层训练。","开源贡献使研究者和开发者能够创建集成多模态输入的应用,潜在应用领域广泛。","NExT-GPT 独特之处在于能够根据用户请求生成模态信令标记,为不同媒体类型的人工智能应用提供了新的可能性。"]
