不久前,專注於AIGC領域的科研機構Epochai發佈了一項重磅研究報告。報告裏說,咱們人類公開的高質量文本訓練數據集,大約有300萬億個tokens。但隨着ChatGPT等大模型的胃口越來越大,這些數據可能在2026年到2032年間就被吃幹抹淨了!

22.jpg

研究人員特別指出,“過度訓練”是加速消耗訓練數據的罪魁禍首。比如Meta最新開源的Llama3,8B版本的過度訓練竟然達到了驚人的100倍!如果所有模型都這麼玩,咱們的數據可能在2025年就得說拜拜了。

2.jpg

但別急,咱們還有招。Epoch ai給出了四種獲取訓練數據的新方法,讓AI界的“數據荒”不再是夢魘。

1)合成數據: 就像用料理包做出的大餐,合成數據利用深度學習模擬真實數據,生成全新的數據。但別高興太早,合成數據的質量可能參差不齊,容易過擬合,缺乏真實文本的細微語言特徵。

2)多模態和跨領域數據學習: 這種方法不僅限於文本,還包括圖像、視頻、音頻等多種數據類型。就像在KTV裏,不僅能唱,還能跳,還能演,多模態學習讓模型更全面地理解和處理複雜任務。

3)私有數據: 目前全球文本數據的私有總量大約是3100萬億tokens,是公開數據的10倍多!但使用私有數據得小心翼翼,畢竟隱私和安全性是大事。而且,獲取和整合非公共數據的過程可能非常複雜。

4)與真實世界實時交互學習: 讓模型通過與真實世界的直接互動來學習和進步。這種方法要求模型具備自主性和適應性,能夠準確理解用戶指令,並在現實世界中採取行動。