近期,AI大模型訓練數據短缺問題再次成爲媒體關注焦點。《經濟學人》雜誌最新發布的文章《AI公司很快將耗盡大部分互聯網數據》引發業界廣泛討論。文章指出,隨着互聯網高質量數據枯竭,AI領域正面臨"數據牆"挑戰。
研究公司Epoch AI預測,到2028年互聯網上所有高質量文本數據將被用盡,機器學習數據集可能在2026年前就會耗盡所有"高質量語言數據"。這種"數據牆"現象已成爲AI公司面臨的重大問題,可能減緩其訓練進展。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
業界對此問題早有警示。2023年7月,加州大學伯克利分校教授斯圖爾特·羅素曾警告,ChatGPT等AI驅動的機器人可能很快就會"耗盡宇宙中的文本"。然而,也有不同觀點。2024年5月,斯坦福大學教授李飛飛表示,當下仍有大量差異化數據等待挖掘,以構建更定製化的模型。
爲應對數據短缺,使用合成數據成爲一種潛在解決方案。但《自然》雜誌近期發表的論文指出,使用AI生成的數據集訓練未來幾代機器學習模型可能導致"模型崩潰",使模型誤解現實。研究團隊建議在訓練數據中保留部分原始數據,使用多樣化數據源,並研究更魯棒的訓練算法。
如何突破"數據牆"限制,確保高質量訓練數據的持續供應,已成爲AI行業的緊迫課題。這不僅需要技術創新,還需要政府、企業和研究機構的共同努力。隨着AI技術日益融入各行各業,解決數據短缺問題將對AI的持續健康發展產生深遠影響。
