近日,阿里通义 Qwen 团队正式发布了其最新版本 Qwen3-Omni-Flash-2025-12-01。这一升级版基于 Qwen3-Omni 构建,作为新一代原生全模态大模型,它能够高效处理文本、图像、音频和视频等多种输入形式,实现实时流式响应,生成文本与自然语音输出。

此次升级的主要亮点包括音视频交互体验的全面升级。这一版本显著增强了对音视频指令的理解和执行能力,有效解决了在口语化场景中常见的 “降智” 问题。多轮音视频对话的稳定性和连贯性得到了提升,使得人机交互更加自然流畅。
此外,系统提示(System Prompt)控制能力也实现了飞跃。用户可以全面自定义 System Prompt,精细调控模型的行为。无论是角色风格、口语表达偏好,还是回复的长度要求,都可以精准实现,提升了模型的控制能力。
在多语言处理能力方面,新版本支持119种文本语言、19种语音识别语言和10种语音合成语言。相较于之前的版本,Qwen3-Omni-Flash 在语言遵循的稳定性上进行了全面优化,确保跨语言场景下的响应准确性。
语音生成的表现也更加拟人化和流畅。新版本有效解决了语速拖沓和机械感的问题,提升了模型根据文本内容自适应调整语速、停顿和韵律的能力,使得语音输出更接近真实对话。
在客观性能指标上,Qwen3-Omni-Flash-2025-12-01的全模态能力得到了全面提升。文本理解与生成能力、语音理解精准度、语音生成自然度以及图像理解深度均显著超越了之前版本,为用户提供了前所未有的自然、精准和生动的 AI 交互体验。
划重点:
🌟 新版本 Qwen3-Omni-Flash 提升了音视频交互体验,增强了对音视频指令的理解与执行能力。
🌍 系统提示自定义功能全面开放,用户可精细调控模型行为,提升交互个性化。
💬 多语言支持能力优化,确保跨语言场景下响应的准确性与一致性。
