最近,Nous Research 的研究團隊給科技圈帶來了一個令人振奮的消息,他們推出了一種名爲 DisTrO(分佈式互聯網訓練)的新優化器。這項技術的誕生,意味着強大的 AI 模型不僅僅是大公司的專利,普通人也有機會在家裏用自己的電腦進行高效訓練。

DisTrO 的神奇之處在於,它能夠顯著減少在訓練 AI 模型時,多個圖形處理單元(GPU)之間需要傳輸的信息量。通過這一創新,強大的 AI 模型可以在普通的網絡條件下進行訓練,甚至讓全球各地的個人或機構聯手合作,共同開發 AI 技術。

image.png

根據 Nous Research 的技術論文,DisTrO 的效率提升驚人,使用它的訓練效率比一種常見的算法 ——All-Reduce 提高了857倍,同時每一步訓練所需傳輸的信息量也從74.4GB 降低到了86.8MB。這樣的提升,不僅讓訓練變得更快、更便宜,還意味着更多的人有機會參與到這個領域中來。

Nous Research 在其社交平臺上表示,通過 DisTrO,研究人員和機構不再需要依賴某一家公司來管理和控制訓練過程,這爲他們提供了更多的自由去進行創新和實驗。這種開放的競爭環境,有助於推動技術進步,最終惠及整個社會。

在 AI 訓練中,硬件的需求常常令人望而卻步。尤其是高性能的 Nvidia GPU 在這個時代變得愈發稀缺且昂貴,只有一些資金雄厚的公司才能承擔得起這種訓練的重負。然而,Nous Research 的理念則完全相反,他們致力於以較低的成本,向公衆開放 AI 模型的訓練,努力讓更多人能夠參與。

DisTrO 的工作原理是,通過降低 GPU 之間的全梯度同步需求,將通信開銷減少了四到五個數量級。這一創新,使得 AI 模型能夠在速度較慢的互聯網連接下進行訓練,如今許多家庭能夠輕鬆訪問的100Mbps 下載和10Mbps 上傳的速度都足夠用了。

在對 Meta 的 Llama2大型語言模型進行的初步測試中,DisTrO 顯示出了與傳統方法相當的訓練效果,同時卻大幅降低了所需的通信量。研究者們還表示,雖然目前只在較小的模型上進行了測試,但他們初步猜測,隨着模型規模的增大,通信需求的降低可能會更加顯著,甚至達到1000到3000倍。

值得注意的是,儘管 DisTrO 讓訓練變得更加靈活,它仍然依賴於 GPU 的支持,只不過現在這些 GPU 不需要聚集在同一個地方,而是可以分散在世界各地,通過普通互聯網進行協作。我們看到,DisTrO 在使用32個 H100GPU 進行嚴格測試時,能夠與傳統的 AdamW+All-Reduce 方法在收斂速度上相匹配,但卻大幅度降低了通信需求。

DisTrO 不僅適用於大型語言模型,也有可能用於訓練圖像生成模型等其他類型的 AI,未來的應用前景令人期待。此外,通過提高訓練效率,DisTrO 還可能減少 AI 訓練對環境的影響,因爲它更優化了現有基礎設施的使用,降低了對大型數據中心的需求。

通過 DisTrO,Nous Research 不僅推動了 AI 訓練的技術進步,還促進了一個更加開放和靈活的研究生態系統,這爲未來的 AI 發展開啓了無限可能。

參考資料:https://venturebeat.com/ai/this-could-change-everything-nous-research-unveils-new-tool-to-train-powerful-ai-models-with-10000x-efficiency/