Midjourney 和紐約大學的研究人員近日聯手開發出一種創新方法,旨在顯著提升語言模型生成創意文本的多樣性,同時將質量損失控制在最低限度。

這項發表在最新研究論文中的技術,核心在於將“偏差指標”引入人工智能的訓練過程。其運作原理是通過量化每個生成的文本與針對同一提示創建的其他文本之間的差異。研究人員利用嵌入文本及其成對餘弦距離來計算這些差異,從而爲系統提供了一種理解文本變異性的數學框架。這種新的訓練方法能夠評估大型語言模型(LLM)響應之間的差異,從而增強輸出的多樣性。

1743301982904.png

該培訓方法評估 LLM 響應之間的差異以增強輸出多樣性。| 圖片:Chung 等人

初步測試結果令人鼓舞。採用這種新型訓練方法的模型,其生成的文本多樣性提高了23%,而根據 Reddit 的獎勵系統評估,質量得分僅下降了5%。

一個具體的測試案例清晰地展示了該方法的實際效果。當研究人員向標準 GPT-4o 模型發出提示“親愛的,你爲什麼發抖?你現在是國王了”時,模型主要生成關於一位緊張的新統治者的故事。然而,經過改進的 Llama-3.1-8B 模型(儘管規模較小)卻創作出了風格迥異的故事,涵蓋了關於熊王子的黑暗幻想,以及水下的超自然傳說等多種題材,展現出遠超前者的創意廣度。人類測試人員的反饋也支持了這些發現,他們認爲這些文本在保持質量的同時,展現出了更豐富的多樣性。值得注意的是,研究人員的測試對象是相對較舊的 GPT-4o 模型,而非成本更高但能生成更自然文本的新一代 GPT-4.5。研究數據表明,經過改進的模型在故事質量和多樣性方面均優於其他模型。

研究團隊重點關注兩種類型的多樣性:語義變化(不同的故事內容和情節)以及文體變化(聽起來像是出自不同作者的寫作風格)。他們爲每種類型開發了特定的版本,但實驗結果表明,將兩者結合使用能夠獲得最佳效果。

1743302009026.png

數據顯示,修改後的模型在故事質量和多樣性方面均優於其他模型。| 圖片:Chung 等人。

在研究過程中,該團隊利用了 Reddit 社區 r/WritingPrompts 中超過10萬對提示-響應數據。他們發現,每個提示僅需四個不同的響應,即可顯著提升模型的多樣性。此外,該系統還可以通過使用精心挑選的訓練樣本或爲不同的響應設置最低質量標準來維持輸出質量,這使其在提升輸出多樣性方面比其他方法更具靈活性。

儘管前景可期,但仍有一些問題需要進一步探索。研究人員尚未驗證他們的方法是否適用於創意寫作以外的領域,例如技術文檔和摘要等可能需要不同的處理方式。該技術在許多大型模型使用的在線訓練環境中的有效性也尚未得到充分測試。

此外,用於衡量質量的 Reddit 點贊數系統本身也存在侷限性。雖然點贊數可以提供一些關於文本質量的參考,但它們忽略了技術準確性、一致性和專業寫作標準等重要因素,這表明未來可能需要更全面的評估方法。

即便存在這些未決問題,這項新技術仍有望徹底改變大型語言模型處理創意寫作任務的方式,因爲目前的模型經常陷入重複性的模式。研究人員表示,他們將在 GitHub 上公開分享他們的代碼,以供其他研究人員和開發者借鑑。