延迟低于 0.2 秒！Mistral AI 发布 Voxtral Transcribe 2 语音模型，支持中文实时转录

法国人工智能初创公司Mistral AI近日宣布推出全新的语音转文字模型系列——Voxtral Transcribe2。这一系列包含两款针对不同应用场景优化的模型，旨在解决语音交互中的高延迟和成本痛点。

其中，最受关注的是名为 Voxtral Realtime 的实时转录模型。该模型拥有4B（40亿）参数规模，采用创新的流式架构。其核心亮点在于极致的响应速度:模型可以在音频输入的瞬间同步进行转录，官方数据显示其转录延迟已被压缩至200ms(0.2秒)以下。这意味着在实时对话或同声传译场景中，用户几乎感受不到处理停顿。为了促进开发者社区的生态建设，Mistral AI已以 Apache2.0协议正式开放了该模型的权重。

另一款模型 Voxtral Mini Transcribe V2 则主打大批量处理与极高性价比。该模型专门为处理长音频设计，单次请求即可支持长达3小时的录音文件。在准确率表现上，Mistral 官方表示该模型已超越了 GPT-4o mini Transcribe 和 Gemini2.5Flash。

在语言支持与成本方面，两款新模型均具备出色的普适性，支持包括中文在内的13种主流语言。定价策略也十分具有竞争力:离线批处理版 API 价格为每分钟0.003美元，而追求极致性能的实时版 API 价格则为每分钟0.006美元。

划重点:

⚡ 极低延迟: Voxtral Realtime 模型将转录延迟降至200ms 以内，支持音频即时转录，且已开源模型权重。
🏆 高性价比: Voxtral Mini 版在准确率上优于 GPT-4o mini 等同类产品，支持3小时超长录音，价格极具优势。
🌐 多语支持: 全系列模型原生支持中文等13种语言，广泛适配全球化的语音办公与实时交互场景。

NVIDIA 发布 Nemotron 3 Embed 系列，8B 版本登顶 RTEB 检索基准

NVIDIA推出Nemotron3Embed嵌入向量模型系列，专为生产级RAG、智能体检索、代码检索和记忆场景设计。8B版本在RTEB基准测试中排名第一，成为性能最强的开源嵌入模型。系列包含三个开放检查点：精度优先的Nemotron-3-Embed-8B-BF16、轻量化的1B-BF16版，以及针对Blackwell架构优化的1B-NVFP4四比特版本，所有模型均采用双向注意力机制。

延迟低于 0.2 秒！Mistral AI 发布 Voxtral Transcribe 2 语音模型，支持中文实时转录

相关推荐

NVIDIA 发布 Nemotron 3 Embed 系列，8B 版本登顶 RTEB 检索基准

银河通用机器人创始人王鹤： 2028 年，具身智能的 “ChatGPT 时刻” 即将来临！

超低延迟 AI 对话神器！Wan-Streamer v0.2 让你与 AI 零距离沟通

文远知行推出物理 AI 大模型 WITT

百度沈抖：每位员工每月发 1000 元额度自由体验主流大模型，强制推行AI办公难见效

​延迟低于 0.2 秒！Mistral AI 发布 Voxtral Transcribe 2 语音模型，支持中文实时转录

相关推荐

NVIDIA 发布 Nemotron 3 Embed 系列，8B 版本登顶 RTEB 检索基准

银河通用机器人创始人王鹤： 2028 年，具身智能的 “ChatGPT 时刻” 即将来临！

超低延迟 AI 对话神器！Wan-Streamer v0.2 让你与 AI 零距离沟通

文远知行推出物理 AI 大模型 WITT

百度沈抖：每位员工每月发 1000 元额度自由体验主流大模型，强制推行AI办公难见效

延迟低于 0.2 秒！Mistral AI 发布 Voxtral Transcribe 2 语音模型，支持中文实时转录