加州大學伯克利分校天空計算實驗室的研究團隊NovaSky於週五發佈了Sky-T1-32B-Preview推理模型,這一模型在多個關鍵基準測試中表現優異,與OpenAI的o1早期版本相媲美,更令人矚目的是其極低的訓練成本。

Sky-T1-32B-Preview是首個真正的開源推理模型,NovaSky團隊不僅發佈了模型,還公開了用於訓練它的數據集及必要的訓練代碼,這意味着該模型可從頭開始複製。據團隊在博客文章中所述,“Sky-T1-32B-Preview的訓練成本不到450美元,這表明可以經濟高效地複製高級推理能力。”在不久前,訓練同等性能的模型價格往往高達數百萬美元,而如今成本的大幅降低,主要得益於合成訓練數據或由其他模型生成的訓練數據的應用。例如,人工智能公司Writer最近發佈的模型Palmyra X004幾乎完全基於合成數據進行訓練,開發成本僅爲70萬美元。

1_1693449769614_ai2023_Facial_AI_robots_a_lot_of_cash_on_the_conference_table_i_d531bb02-0ec5-4e0a-9f1c-a65fa11a4c51

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

推理模型與普通人工智能模型不同,能夠有效進行自我事實覈查,從而避免一些常見陷阱。不過,推理模型得出解決方案通常需要更長時間,從幾秒到幾分鐘不等。但其在物理、科學和數學等領域的可靠性更高,這是其顯著優勢。

NovaSky團隊透露,他們藉助阿里巴巴的QwQ-32B-Preview推理模型生成Sky-T1的初始訓練數據,之後對數據進行“整理”,並利用OpenAI的GPT-4o-mini將數據重構爲更易用的格式。使用8個Nvidia H100GPU機架訓練320億參數的Sky-T1大約需要19個小時,參數數量大致對應模型解決問題的能力。

在性能測試方面,Sky-T1在MATH500(一組“競賽級”數學挑戰)上的表現優於o1的早期預覽版本,還在一組來自LiveCodeBench(一種編碼評估)的難題上擊敗了o1的預覽版本。然而,Sky-T1在GPQA-Diamond上的表現不如o1預覽版,後者包含博士畢業生應掌握的物理、生物和化學相關問題。此外,OpenAI的o1GA版本比預覽版更強大,且OpenAI預計在未來幾周發佈性能更佳的推理模型o3。

儘管如此,NovaSky團隊表示,Sky-T1僅是他們開發具有高級推理能力的開源模型的起點。“展望未來,我們將專注於開發更高效的模型,保持強大的推理性能,並探索先進技術,進一步提高模型在測試時的效率和準確性,”團隊在帖子中寫道,“請繼續關注我們在這些激動人心的計劃上取得的進展。”這一開源推理模型的出現,無疑爲人工智能領域帶來了新的機遇和挑戰,其未來發展值得持續關注。