近日,谷歌在其研究中提出了一種新穎的主動學習篩選流程,旨在大幅降低微調大型語言模型所需的訓練數據量。根據實驗結果,這種方法能夠將訓練數據量降低至原來的1萬分之一,同時提高模型與人類專家判斷的一致性達65%。在實際應用中,如廣告內容分類、金融數據安全分析等領域,對高保真訓練數據的需求一直很高,但篩選出符合要求的數據不僅難度大,成本也極爲昂貴。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
這一新方法從一個零樣本或少樣本的初始模型開始,用戶通過提示定義目標內容,比如詢問某廣告是否爲 “點擊誘餌”。初始模型會將廣告標記爲點擊誘餌或良性,並生成一個大型標記數據集。然而,初始數據集常常存在嚴重的類別不平衡,導致模型的準確識別能力較弱。
爲了解決這一問題,研究者將模型標記爲點擊誘餌和良性廣告的內容進行分組,發現部分組之間存在重疊,說明模型在這些內容上容易判斷錯誤。因此,研究者可以從這些重疊組中挑選樣本對,交由專家進行判斷,以此來控制審覈成本,並優先選擇能覆蓋多種情況的樣本對。這樣得到的樣本既有價值,又涵蓋了各種可能出錯的情形。
在模型微調過程中,專家提供的標註被分爲兩組,一組用於評估模型一致性,另一組則用於模型的微調。這一過程將不斷重複,直到模型的表現達到與人類專家相近的水平。
谷歌的實驗使用了 Gemini Nano-1和 Nano-2兩款模型,並針對兩個複雜度不同的任務進行了測試。在測試中,每個任務都使用了約10萬條衆包標註數據,儘管這些數據嚴重不平衡。結果表明,專家之間的判斷一致性很高,而衆包標籤與專家判斷的一致性則相對一般。通過新方法,32.5億參數的模型在低難度任務上的對齊度顯著提升,使用的數據量僅爲250-450條,較原來的10萬條大幅減少,仍能取得良好的效果。
綜上所述,谷歌的新方法證明了只需少量高質量的數據,且確保專家標註一致性超過0.8,大型模型也能在訓練時獲得出色的表現。
劃重點:
📉 訓練數據量可減少至原來的1萬分之一,提高模型精準度。
🤝 新方法依賴專家判斷與模型迭代,確保樣本質量。
📊 實驗表明,使用少量高質量數據可達到甚至超越傳統大量數據的效果。
