在最近的一次直播對話中,特斯拉和 SpaceX 首席執行官埃隆・馬斯克表示,現實世界中可用於訓練人工智能模型的數據已經幾乎耗盡。與他進行對話的是 Stagwell 董事會主席馬克・佩恩。馬斯克提到,“我們現在基本上已經消耗掉了所有人類知識的積累…… 用於人工智能訓練的數據。這個現象基本上是去年發生的。”
馬斯克的這一觀點與前 OpenAI 首席科學家伊利亞・蘇茨克弗在去年12月的 NeurIPS 會議上提出的 “數據峯值” 理論相似。蘇茨克弗表示,AI 行業正面臨數據短缺的挑戰,未來缺乏足夠的訓練數據將迫使 AI 模型的開發方式發生變化。
爲了解決這一問題,馬斯克認爲合成數據將成爲一種可行的替代方案。他指出,唯一可以補充現實世界數據的方式就是通過合成數據,即讓人工智能自身生成訓練數據。馬斯克表示,AI 可以通過自我評估並不斷優化自身,藉此提升性能。
目前,許多科技公司如微軟、Meta、OpenAI 和 Anthropic 等都開始採用合成數據來訓練其主要的 AI 模型。據 Gartner 的預測,到2024年,用於人工智能和數據分析項目的60% 數據將會是合成生成的。
合成數據的一個顯著優勢是可以顯著降低開發成本。然而,馬斯克和其他專家也指出,合成數據並非沒有風險。研究顯示,合成數據可能導致模型性能下降,輸出結果可能缺乏創新性,並可能受到偏見的影響。如果合成數據本身存在侷限性,最終模型的輸出結果也將受到這些問題的困擾。
劃重點:
🌍 現實世界中可用於訓練 AI 的數據幾乎耗盡,馬斯克對此表示擔憂。
💡 合成數據被認爲是未來的重要解決方案,許多科技公司已開始採用。
💰 使用合成數據可以大幅降低開發成本,但也存在可能導致模型性能下降的風險。