阿里通义推出Qwen3-Omni-Flash-2025-12-01

近日，阿里通义 Qwen 团队正式发布了其最新版本 Qwen3-Omni-Flash-2025-12-01。这一升级版基于 Qwen3-Omni 构建，作为新一代原生全模态大模型，它能够高效处理文本、图像、音频和视频等多种输入形式，实现实时流式响应，生成文本与自然语音输出。

此次升级的主要亮点包括音视频交互体验的全面升级。这一版本显著增强了对音视频指令的理解和执行能力，有效解决了在口语化场景中常见的 “降智” 问题。多轮音视频对话的稳定性和连贯性得到了提升，使得人机交互更加自然流畅。

此外，系统提示（System Prompt）控制能力也实现了飞跃。用户可以全面自定义 System Prompt，精细调控模型的行为。无论是角色风格、口语表达偏好，还是回复的长度要求，都可以精准实现，提升了模型的控制能力。

在多语言处理能力方面，新版本支持119种文本语言、19种语音识别语言和10种语音合成语言。相较于之前的版本，Qwen3-Omni-Flash 在语言遵循的稳定性上进行了全面优化，确保跨语言场景下的响应准确性。

语音生成的表现也更加拟人化和流畅。新版本有效解决了语速拖沓和机械感的问题，提升了模型根据文本内容自适应调整语速、停顿和韵律的能力，使得语音输出更接近真实对话。

在客观性能指标上，Qwen3-Omni-Flash-2025-12-01的全模态能力得到了全面提升。文本理解与生成能力、语音理解精准度、语音生成自然度以及图像理解深度均显著超越了之前版本，为用户提供了前所未有的自然、精准和生动的 AI 交互体验。

划重点:
🌟 新版本 Qwen3-Omni-Flash 提升了音视频交互体验，增强了对音视频指令的理解与执行能力。
🌍 系统提示自定义功能全面开放，用户可精细调控模型行为，提升交互个性化。
💬 多语言支持能力优化，确保跨语言场景下响应的准确性与一致性。

阿里通义推出 Qwen3-ASR-Toolkit，实现音视频转录新突破

阿里通义Qwen团队推出开源Python命令行工具Qwen3-ASR-Toolkit，支持便捷音视频转录。该工具突破Qwen3-ASR-Flash API的三分钟限制，实现小时级快速转录，为大规模音频处理提供有力支持。Qwen3-ASR-Flash是最新语音识别模型，基于海量多模态数据训练。

阿里通义Fun-ASR语音模型升级垂直领域识别率跃升超15%

阿里通义推出新一代语音识别模型Fun-ASR，通过强化上下文感知与高精度转写能力，在保险、家装等垂直行业实现15%以上的准确率提升。实测显示保险行业提升18%，家装、畜牧等领域提升15%-20%。该模型采用自研算法与Qwen3微调技术，结合前沿架构与文本对齐技术。

阿里通义发布 Wan2.2-I2V-Flash 图生视频模型推理速度大幅提升

阿里通义大模型今日宣布推出其最新图生视频模型Wan2.2-12V-Flash，该模型的上线将为用户带来更快速、更专业、更稳定的视频生成体验。 Wan2.2-12V-Flash在保持电影级视觉呈现的同时，实现了生成速度与性价比的全面提升。此次发布的Wan2.2-12V-Flash模型在推理速度上相比前代Wan2.1提升了12倍，显著提高了创作效率。新模型的指令遵循能力也得到了大幅提升，能够直接响应各种特效提示词，实现运镜的精准控制，确保指令的准确执行。

阿里通义推出Qwen3-Omni-Flash-2025-12-01

相关推荐

阿里通义推出 Z-Image 模型，首日下载量突破 50 万

斯坦福顶尖科学家许主洪加盟阿里通义

阿里通义推出 Qwen3-ASR-Toolkit，实现音视频转录新突破

阿里通义Fun-ASR语音模型升级垂直领域识别率跃升超15%

阿里通义发布 Wan2.2-I2V-Flash 图生视频模型推理速度大幅提升

​阿里通义推出Qwen3-Omni-Flash-2025-12-01

相关推荐

​阿里通义推出 Z-Image 模型，首日下载量突破 50 万

斯坦福顶尖科学家许主洪加盟阿里通义

阿里通义推出 Qwen3-ASR-Toolkit，实现音视频转录新突破

阿里通义Fun-ASR语音模型升级 垂直领域识别率跃升超15%

阿里通义发布 Wan2.2-I2V-Flash 图生视频模型 推理速度大幅提升

阿里通义推出Qwen3-Omni-Flash-2025-12-01

阿里通义推出 Z-Image 模型，首日下载量突破 50 万

阿里通义Fun-ASR语音模型升级垂直领域识别率跃升超15%

阿里通义发布 Wan2.2-I2V-Flash 图生视频模型推理速度大幅提升