告別“長文本焦慮”：小紅書 RedKnot 推理引擎開源，長上下文處理效率翻倍

在生成式人工智能的應用場景中，如何讓模型在處理超長文本時既快又省，一直是工程師們攻克的難題。近日，小紅書技術團隊開源了其自主研發的 RedKnot 推理引擎，帶來了一套針對長上下文任務的“降本增效”新方案。

RedKnot 的核心創新在於打破了傳統的 KV Cache（鍵值緩存）處理模式。以往，大模型在推理過程中，緩存是按 token（詞元）維度存儲的，這導致在處理長文本時，內存開銷呈線性增長，極大地拖累了推理速度與併發能力。RedKnot 另闢蹊徑，將 KV Cache 沿注意力頭（Attention Head）維度進行拆解，並引入了“頭分類稀疏”、“稀疏 FFN”以及“SegPagedAttention”三大機制，實現了算法邏輯與存儲粒度的統一。

這一架構調整帶來的性能提升十分顯著。實測數據顯示，在 8 卡 H800 的高性能計算環境下，RedKnot 能夠將首字生成時間（TTFT）加速 1.6 倍至 3.54 倍，單卡併發能力更是提升了 4.7 倍至 7.8 倍。在預填充階段，計算資源消耗（FLOPs）被削減了 67% 至 79.5%。以 DeepSeek-V4-Flash 模型在 128K 超長上下文任務上的表現爲例，其首字生成速度提升了 5.16 倍，KV 數據傳輸效率也優化了 6.3 倍，且推理精度依然穩健，保持在稠密模型性能的 95% 以上。

業內專家認爲，RedKnot 的開源爲推理引擎的工程優化提供了重要參考。在算力資源日益緊缺的背景下，這種通過底層架構精細化拆解來緩解長文本推理負擔的思路，無疑爲構建更輕量、更高效的 AI 推理系統開闢了新的技術路徑。目前，相關代碼已正式開源，旨在推動長文本 AI 應用的普及與落地。

美國修訂隱私法案:擬十年撥款10億禁止AI公司出售健康數據

美參議員沃倫和衆議員斯坎倫提出修訂版《健康與位置數據保護法案》，將生成式AI納入監管，禁止AI公司及數據經紀商出售用戶輸入的敏感醫療與健康信息。該立法直指科技巨頭進軍醫療領域帶來的隱私風險，源於馬斯克等公開呼籲用戶上傳核磁共振等數據所引發的擔憂。

算力告急：谷歌限制 Gemini 模型調用，Meta 研發進度受阻

在生成式人工智能浪潮推動下，算力成爲科技巨頭角逐的關鍵資源。谷歌的Gemini AI平臺因需求激增，自2025年春季以來API調用請求量翻倍，導致核心算力捉襟見肘，被迫收緊資源分配。爲平衡開發者和企業的激增負載，並保障生態系統公平，谷歌於2026年5月17日正式實施基於算力額度的使用限制，採用類似流量套餐的分級模式。這一舉措不僅緩解了供應壓力，也折射出整個AI領域對算力需求的失控性增長。

告別“長文本焦慮”：小紅書 RedKnot 推理引擎開源，長上下文處理效率翻倍

相關推薦

美國修訂隱私法案:擬十年撥款10億禁止AI公司出售健康數據

算力告急：谷歌限制 Gemini 模型調用，Meta 研發進度受阻

挪威宣佈出臺限制政策:原則上禁止6至13歲小學生使用生成式AI

貝索斯豪擲 4 億美元領投，英國AI獨角獸CuspAI估值飆升至 26 億美元

告別單輪傻瓜問答！雲知聲發佈原生智能體大模型U2，自主攻克百步複雜工作流

告別“長文本焦慮”：小紅書 RedKnot 推理引擎開源，長上下文處理效率翻倍

相關推薦

美國修訂隱私法案:擬十年撥款10億禁止AI公司出售健康數據

算力告急：谷歌限制 Gemini 模型調用，Meta 研發進度受阻

挪威宣佈出臺限制政策:原則上禁止6至13歲小學生使用生成式AI

​貝索斯豪擲 4 億美元領投，英國AI獨角獸CuspAI估值飆升至 26 億美元

告別單輪傻瓜問答！雲知聲發佈原生智能體大模型U2，自主攻克百步複雜工作流

貝索斯豪擲 4 億美元領投，英國AI獨角獸CuspAI估值飆升至 26 億美元