以AI圖像生成技術聞名遐邇的Midjourney,正悄然展現其在人工智能領域的更廣闊野心。這家擁有龐大用戶羣體的科技公司,在自研計算和AI硬件的消息之後,近期攜手紐約大學(NYU)的機器學習專家,發佈了一項關於訓練文本生成大語言模型(LLMs)的最新研究成果。
該研究聚焦於提升LLM在創意寫作方面的能力,旨在使AI模型能夠像Meta的Llama和Mistral等開源模型一樣,寫出更具創造性的文本。
不止於圖像:Midjourney發力創意文本生成
對於一家以擴散模型AI圖像生成技術著稱的公司而言,Midjourney此次在文本生成領域的創新嘗試,無疑向外界傳遞了一個明確的信號:他們的目標遠不止於視覺內容。正如研究人員所言,“一圖勝千言”的傳統觀念或許將被改寫,文本的創意潛力同樣值得深入挖掘。Midjourney正在用實際行動證明,其在AI領域的探索是多元化的。
告別“套路”:創新技術提升AI寫作多樣性
該項發表於AI代碼社區Hugging Face的研究論文,創新性地提出了兩種名爲“多樣化直接偏好優化”(Diversified Direct Preference Optimization, DDPO)和“多樣化賠率比偏好優化”(Diversified Odds Ratio Preference Optimization, DORPO)的新技術。這兩項技術的核心目標在於擴大AI模型生成文本的範圍,使其在保持連貫性和可讀性的前提下,呈現出更加豐富多樣的內容。
研究人員指出,儘管當前的LLM在事實性問答或代碼輔助等領域表現出色,能夠生成“最優解”,但在創意寫作領域,由於其開放性,對同一個提示本應存在多種有效的迴應。例如,對於“寫一個關於月球上的狗的故事”這樣的提示,人類可能會構思出宇航員遺落在月球上的寵物狗、未來犬類太空殖民地的狗狗,或是與外星生物成爲朋友的流浪狗等多種截然不同的情節。
然而,經過指令調優的LLM往往會收斂於相似的故事線和主題。這主要是因爲後期訓練技術更側重於用戶偏好而非原創性,強化了流行但重複的答案;同時,指令調優也可能平滑了變異性,使模型傾向於生成“安全”但缺乏新意的迴應。此外,現有的多樣性促進技術(如溫度調整)通常只在模型推理階段發揮作用,而沒有融入到模型的學習過程中。這最終導致AI生成的創意寫作顯得同質化,缺乏驚喜和深度。
讓AI模型“另闢蹊徑”
爲了克服這些侷限性,Midjourney的研究團隊對現有的偏好優化方法進行了改進,引入了DDPO和DORPO。這兩項創新的核心在於利用“偏差”(deviation)——即一個迴應與其他迴應的差異程度——來指導模型訓練。
具體來說,在訓練過程中,模型會接收一個寫作提示和多個可能的回答。隨後,每個回答都會與其他同提示下的回答進行比較,並計算出一個偏差分數。那些罕見但高質量的迴應在訓練中會被賦予更高的權重,從而鼓勵模型從更多樣化的例子中學習。通過將偏差融入到直接偏好優化(DPO)和賠率比偏好優化(ORPO)中,模型能夠學習生成更高質量且更具差異性的迴應。這種方法確保了AI生成的故事不會侷限於單一可預測的結構,而是能夠探索更廣泛的角色、設定和主題,就像人類作家一樣。
爲了驗證這些新方法的有效性,研究人員使用了Reddit社區r/writingPrompts上的數據集對LLM進行訓練。他們選擇了Meta的Llama-3.1-8B(一個80億參數的模型)和Mistral AI的Mistral-7B-v0.3(一個70億參數的模型)作爲基礎模型。
訓練過程包括監督式微調(SFT)和偏好優化兩個階段。在偏好優化階段,他們首先使用標準的DPO和ORPO作爲基線,然後應用DDPO和DORPO引入基於偏差的權重。最後,通過自動評估(測量語義和文體多樣性)和人工評估(判斷輸出的多樣性和吸引力,並與GPT-4o和Claude3.5進行比較)來評估模型性能。
實驗結果顯示,DDPO在保持輸出質量的同時,顯著優於標準的DPO。搭載DDPO的Llama-3.1-8B在質量和多樣性之間取得了最佳平衡,其生成的迴應比GPT-4o更加多樣化,同時保持了良好的連貫性。即使在數據集規模縮小的情況下,DDPO模型仍然能夠保持一定的多樣性。
賦能各行業:AI創意內容潛力無限
這項研究對於需要使用AI生成創意文本的企業而言,具有重要的實際意義。例如,在營銷文案、企業故事講述以及影視遊戲劇本創作等領域,提升AI生成內容的多樣性和質量至關重要。對於負責LLM部署的AI團隊而言,如何在保證質量的前提下增強輸出的多樣性是一個關鍵挑戰。Midjourney的研究爲解決這一難題提供了一種新的思路。
該研究提出了一種新的LLM後訓練方法,能夠在不犧牲質量的前提下增強創造力。它還提供了一種實用的替代方案,可以取代推理時期的多樣性調整(如調整溫度),將多樣性直接融入到模型的學習過程中。這有望開發出更具吸引力的AI應用,例如AI輔助寫作工具和能夠動態調整迴應的虛擬助手。
對於負責AI模型編排和自動化的專業人士來說,這項研究強調了在訓練階段調整模型的重要性,從而減少部署後進行後處理調整的需求。它還提供了一種將自適應敘事引入AI驅動應用的方法,確保內容的可變性,同時保持高質量。此外,該方法有助於使LLM的輸出更像人類,這對於需要互動敘事、客戶互動或動態內容創建的應用至關重要。
結語
DDPO和DORPO的成功表明,以多樣性爲目標訓練LLM可以在創意寫作方面取得顯著的進步。未來,將基於偏差的學習方法集成到企業AI模型中,以增強面向客戶的應用中的響應多樣性,探索這些方法在詩歌、劇本創作或遊戲故事等其他生成任務中的應用,以及開發平衡多樣性和指令遵循能力的混合訓練方法,都將是值得期待的研究方向。
Midjourney的研究團隊計劃公開其代碼,這無疑將爲那些希望應用這些技術的開發者提供寶貴的資源。通過採納這些創新技術,AI團隊有望突破僵化、公式化的輸出模式,構建出不僅智能,而且真正富有想象力的AI系統。
論文:https://huggingface.co/papers/2503.17126