Moonshot AI攜手清華大學發佈PrfaaS架構，破解大模型算力瓶頸

大語言模型（LLM）的推理性能瓶頸正在被新技術打破。近日，Moonshot AI（月之暗面）與清華大學研究團隊聯合提出了一種名爲**預填充即服務（PrfaaS）**的新型架構。該研究旨在通過優化算力資源分配，解決大模型服務在數據中心部署時面臨的硬件限制，顯著提升了推理效率。

技術突破:預填充與解碼的“手術刀式”分離

目前，大語言模型的推理過程主要分爲兩個差異化的階段:

預填充階段（Prefill）: 屬於計算密集型，負責處理輸入並生成鍵值緩存（KVCache）。
解碼階段（Decode）: 屬於內存帶寬密集型，負責逐字生成輸出。

在傳統的服務架構中，這兩個階段通常被擠在同一個數據中心甚至同一臺服務器內處理。由於兩者對硬件資源的需求截然不同，這種“強行捆綁”往往導致計算資源與帶寬之間的分配失衡，進而引發服務擁堵。

核心創新:跨地域的高效協同

PrfaaS架構的核心亮點在於實現了解耦式服務。它將高計算密集的預填充任務卸載到專門的高計算集羣上。任務完成後，系統利用通用的以太網技術，將生成的KVCache遠程傳輸至本地解碼集羣。

這種設計打破了物理空間的限制，使得預填充和解碼可以在不同的數據中心同步進行。爲了確保傳輸的高效性，PrfaaS引入了雙時間尺度調度機制。該機制能根據實時流量波動靈活分配資源，配合精確的路由機制，確保長文本請求在傳輸過程中不會因資源不均而產生延遲。

實測表現:吞吐量與延遲的雙重優化

研究數據顯示，PrfaaS架構在實際應用中表現驚人:

服務吞吐量提升了54%，大幅增強了單位時間內處理請求的能力。
顯著降低了響應延遲，用戶端感受到的首字生成速度更快。
資源利用率最大化，通過分離計算、網絡和存儲子系統，規避了傳統架構中的擁堵頑疾。

此次Moonshot AI與清華大學的合作，不僅爲大規模AI推演提供了新的工程思路，也爲未來跨地域算力網絡的構建奠定了技術基礎。這種“預填充即服務”的模式，或許將成爲大模型邁向工業化應用的重要分水嶺。

騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench

騰訊混元團隊與中國人民大學等機構聯合開源了PlanningBench，這是一個用於評測和訓練大語言模型規劃能力的框架。它系統化地抽象了任務、約束和難度，覆蓋30多種規劃任務類型，支持數據生成與驗證，旨在評估模型的實際規劃能力。

GPT 5.5 稱霸 AI 漏洞挑戰，DeepSeek 斬獲“性價比之王”

安全研究員Kasra Rahjerdi通過構建含漏洞的圖書評論應用，測試主流大語言模型的安全推理能力。他故意暴露谷歌移動端後端服務憑據，要求模型解包並識別以訪問數據庫。在每場2小時、預算10美元的嚴格條件下，評估了頂尖模型的表現。

GPT-5. 5 拿下利用率冠軍，DeepSeek V4 Pro斬獲性價比之王！大模型網絡安全攻防實測報告出爐

大語言模型在網絡安全領域的推理能力正面臨嚴峻考驗。安全研究員Kasra Rahjerdi通過構建含有核心漏洞的圖書評論APK，對主流大模型進行模擬黑客攻擊測試，揭示其安全推理與漏洞利用的真實水平。測試限時2小時、單次預算10美元，直觀展現了各模型在複雜邏輯挑戰中的表現。

惡意開發者利用Claude編寫惡意包:超670個受污染npm包威脅開源生態安全

近期，一名惡意開發者利用Anthropic的AI模型Claude協助編寫惡意代碼，向npm倉庫推送超670個含惡意腳本的軟件包，大規模污染包管理器生態。該事件暴露了大語言模型被用於自動化開發惡意軟件的風險，引發網絡安全行業高度警惕。

連自己名字都拼不對?谷歌AI搜索屢屢“翻車”引發用戶集體卸載

谷歌近期升級其“AI概覽”搜索功能，試圖將傳統搜索引擎轉變爲對話式引擎，但遭遇重大挫敗。用戶測試發現，該AI系統頻繁出現低級拼寫錯誤，如誤判“poop”中字母“r”的數量，將“journalism”拼錯爲“journadism”，甚至無法正確拼寫母公司名稱“Google”。這些錯誤暴露了AI在基礎文字處理上的短板，引發廣泛質疑。