人工智能初創公司 Inception Labs 近日宣佈推出 Mercury2,這不僅是一個性能強勁的推理模型,更在底層架構上實現了一次大膽的“範式轉移”。

該模型徹底棄用了目前主流的 Transformer 架構,轉而採用擴散模型(Diffusion-based)來生成文本,試圖打破傳統大模型的性能瓶頸。

與傳統模型逐個生成 Token(字符)的方式不同,Mercury2的工作原理更像是一位經驗豐富的編輯。它不再是一個字一個字地往外蹦,而是能夠同時對多個文本塊進行全局優化和重寫。這種並行處理的邏輯,讓 Mercury2在處理複雜邏輯推理任務時,展現出了令人驚歎的速度優勢。
根據 AIbase 獲取的實測數據,在英偉達 Blackwell GPU 的驅動下,Mercury2的生成速度達到了驚人的每秒1009個 Token。在端到端延遲測試中,該模型僅需1.7秒即可完成響應,這一表現比谷歌的 Gemini3Flash 快了8倍以上,更是遠超 Anthropic 的 Claude Haiku4.5。儘管速度極快,但在 GPQA Diamond 和 AIME 等權威推理基準測試中,它的質量依然能與當前頂尖的輕量化推理模型並駕齊驅。
在商業策略上,Inception Labs 採取了極具競爭力的定價方案,其輸入與輸出成本僅爲同類競品的四分之一。目前,Mercury2已正式開放 API 接口,並支持12.8萬 Token 的超長上下文及工具調用功能。對於追求極致響應速度的語音助手、搜索系統及編程工具而言,這款“不走尋常路”的擴散推理模型無疑提供了一個極具吸引力的新選擇。
概要:
🌀 架構底層革新:摒棄傳統的逐字生成模式,採用擴散模型技術,支持同時對多個文本塊進行全局優化,實現推理邏輯的質變。
⚡ 極致性能表現:在最新硬件加持下實現秒級響應,生成速度破千 Token/s,延遲表現大幅優於 Gemini3和 Claude4.5。
💰 高性價比商用:以極低的價格成本挑戰現有市場格局,支持長文本與 API 接入,重點瞄準延遲敏感型的企業級 AI 應用。
