近日,YouTube 科技頻道 Fully Buffered 完成了一項極具震撼力的硬核測試:在奔騰 4 641 處理器(發佈於 2006 年)上,成功運行了 Meta 最新的 Llama 3.2 3B 大模型。
這一測試將現代人工智能技術與 20 年前的老舊硬件強行“對撞”,不僅展示了 LLM 運行的底層兼容性極限,更讓不少網友感慨:摩爾定律在 AI 時代的進化速度,竟以這種方式實現了跨時空的“握手”。
硬件“考古”:極致配置跑通現代算力
爲了這場測試,Fully Buffered 團隊還原了 2006 年主流發燒友的硬件天花板:
核心心臟: Intel 奔騰 4 641(3.2GHz,單核,2MB L2 緩存)。
內存陣列: 華碩 P5WDH Deluxe 主板搭配 4 條 2GB DDR2-800 內存,總容量達到 8GB。
軟件環境: 針對老舊架構缺乏 AVX2 指令集的特性,團隊專門調配了支持 No-AVX 模式 的推理環境。
慢動作推理:每秒 0.21 Token 的“長征”
測試過程中,當系統向 Llama 3.2 3B 拋出問題“What's a Pentium 4?”時,這顆 20 年前的單核處理器立刻進入了“巔峯負荷”狀態。
生成效率: 最終的生成速度僅爲 0.21 Token/秒。
時間成本: 爲了得到一個完整的回答,奔騰 4 連續滿載運轉了近 33 分鐘。
在現代 AI 應用追求“毫秒級”響應的今天,33 分鐘的等待無疑是“崩潰級”體驗,但對於這顆誕生於 NetBurst 架構時代的處理器而言,這卻是 AI 原理在古老硅片上一次跨越 20 年的“邏輯長跑”。
意義超越實用:證明了 AI 的兼容極限
爲什麼要用這麼古老的機器跑 AI?測試團隊表示,這場測試並非爲了探討實用性,而是驗證了兩個關鍵邊界:
No-AVX 指令集的生存空間: 現代大模型幾乎都默認要求 AVX 指令集,但通過特定的推理模式,即使沒有這些指令集,AI 依然能完成推理。
內存的“底座”作用: 30 億參數的 3B 模型在 8GB DDR2 內存下的“剛好載入”,證明了只要內存足夠,即便是極低算力的單核 CPU,依然能夠支撐起現代 LLM 的運行,而非必須依賴頂級 GPU 算力。
尾聲:NetBurst 架構的“AI 晚年”
2006 年,Intel 奔騰 4 還在主頻競賽的狂熱中執着於追求“高主頻低效能”的 NetBurst 架構,當年的工程師們或許預見到未來會是處理器的時代,但恐怕做夢也想不到,他們設計的架構能在 20 年後以如此艱難的方式,理解並闡述自己的歷史。
這次測試爲 AI 硬件生態提供了一個極端的參考案例:算力決定響應速度,但指令集兼容性與內存支撐,纔是大模型運行的底層生命線。 當奔騰 4 最終在屏幕上緩慢敲出對自己的描述時,這不僅僅是一次推理成功,更是計算機科學史上一場浪漫的告別儀式。
