近日,加州大學伯克利分校的 Sky Computing Lab 團隊發佈了 Sky-T1-32B-Preview,這是一款開放源代碼的推理型人工智能模型,標誌着推理型 AI 的研發變得更加容易和便宜。該模型在多個關鍵基準測試中表現出色,甚至與 OpenAI 早期版本的 o1相媲美。
Sky-T1的訓練成本令人矚目,僅爲450美元,這意味着高水平推理能力的複製已變得更加可負擔且高效。雖然450美元的費用可能聽起來不算低,但與幾年前動輒數百萬美元的訓練成本相比,已是巨大的下降。藉助合成訓練數據,即由其他模型生成的訓練數據,成本得以顯著降低。AI 公司 Writer 最近發佈的 Palmyra X004幾乎完全依賴合成數據,開發成本也僅爲70萬美元。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
與大多數 AI 不同,推理模型能夠有效地自我覈查,這使得它們在處理一些常見問題時更加可靠。推理模型通常在得出解決方案時需要更多時間,可能需要幾秒到幾分鐘,但在物理、科學和數學等領域,其可靠性優勢顯著。
NovaSky 團隊利用了另一種推理模型 —— 阿里巴巴的 QwQ-32B-Preview,生成 Sky-T1的初始訓練數據,並對數據進行了 “策劃”,之後使用 OpenAI 的 GPT-4o-mini 將數據重新整理成更可操作的格式。訓練32億參數的 Sky-T1只需約19小時,使用的是一組8個 Nvidia H100GPU。參數數量與模型的解決問題能力大致相關。
根據 NovaSky 團隊的說法,Sky-T1在 MATH500這一包含 “競賽級” 數學挑戰的集合上表現超越了 o1的早期預覽版本。此外,Sky-T1在 LiveCodeBench 中遇到的難題上也超過了 o1的預覽版本。然而,在涉及物理、生物和化學等領域的問題上,Sky-T1在 GPQA-Diamond 測試中的表現卻遜色於 o1預覽版。
需要指出的是,OpenAI 的 GA 版本 o1比預覽版更爲強大,而且 OpenAI 預計將在未來幾周內發佈更爲優秀的推理模型 o3。不過,NovaSky 團隊表示,Sky-T1僅是他們開發具備先進推理能力的開源模型旅程的開始。
“展望未來,我們將專注於開發更高效的模型,以保持強大的推理性能,並探索進一步提升模型效率和準確性的高級技術,” 團隊在博客中寫道。“請繼續關注我們在這些激動人心的項目上的進展。”