人工智能初创公司 Inception Labs 近日宣布推出 Mercury2,这不仅是一个性能强劲的推理模型,更在底层架构上实现了一次大胆的“范式转移”。

该模型彻底弃用了目前主流的 Transformer 架构,转而采用扩散模型(Diffusion-based)来生成文本,试图打破传统大模型的性能瓶颈。

与传统模型逐个生成 Token(字符)的方式不同,Mercury2的工作原理更像是一位经验丰富的编辑。它不再是一个字一个字地往外蹦,而是能够同时对多个文本块进行全局优化和重写。这种并行处理的逻辑,让 Mercury2在处理复杂逻辑推理任务时,展现出了令人惊叹的速度优势。
根据 AIbase 获取的实测数据,在英伟达 Blackwell GPU 的驱动下,Mercury2的生成速度达到了惊人的每秒1009个 Token。在端到端延迟测试中,该模型仅需1.7秒即可完成响应,这一表现比谷歌的 Gemini3Flash 快了8倍以上,更是远超 Anthropic 的 Claude Haiku4.5。尽管速度极快,但在 GPQA Diamond 和 AIME 等权威推理基准测试中,它的质量依然能与当前顶尖的轻量化推理模型并驾齐驱。
在商业策略上,Inception Labs 采取了极具竞争力的定价方案,其输入与输出成本仅为同类竞品的四分之一。目前,Mercury2已正式开放 API 接口,并支持12.8万 Token 的超长上下文及工具调用功能。对于追求极致响应速度的语音助手、搜索系统及编程工具而言,这款“不走寻常路”的扩散推理模型无疑提供了一个极具吸引力的新选择。
概要:
🌀 架构底层革新:摒弃传统的逐字生成模式,采用扩散模型技术,支持同时对多个文本块进行全局优化,实现推理逻辑的质变。
⚡ 极致性能表现:在最新硬件加持下实现秒级响应,生成速度破千 Token/s,延迟表现大幅优于 Gemini3和 Claude4.5。
💰 高性价比商用:以极低的价格成本挑战现有市场格局,支持长文本与 API 接入,重点瞄准延迟敏感型的企业级 AI 应用。
