蘋果公司與俄亥俄州立大學研究團隊聯合發佈的 FS-DFM(Few-Step Discrete Flow-Matching)模型。這一創新的語言模型在長文本生成方面表現出色,僅需8輪快速迭代,便可生成與傳統模型上千輪迭代相媲美的文本質量。同時,它的寫入速度可提高最多128倍,打破了以往長文本生成的效率瓶頸。

image.png

FS-DFM 模型的設計理念與主流的語言模型有所不同。以 ChatGPT 爲代表的自迴歸模型是逐字生成文本,每個字的生成都依賴於前面的內容。而擴散模型則採用並行策略,一次性生成多個字,通過多輪迭代逐步優化最終結果。FS-DFM 在擴散模型的基礎上進行了進一步簡化,目標是用更少的步驟實現高質量文本的生成。

爲了實現這一突破,蘋果研究團隊提出了一套精妙的三步法。首先,模型經過專門訓練,可以靈活適應不同的精煉迭代次數。其次,他們引入了一個 “教師” 模型進行引導,確保每輪迭代中的更新既大幅又精準,從而避免過度調整的問題。最後,團隊優化了迭代機制,使得模型能夠以更少且更加穩健的步驟生成最終文本。

在性能評估中,FS-DFM 還對比了參數量爲70億的 Dream 模型和80億的 LLaDA 模型。測試結果顯示,即使 FS-DFM 的參數量僅爲1.7億至17億,其在文本生成的困惑度(越低越好,衡量文本的準確與流暢性)和熵(衡量模型選詞信心的指標)上,表現出更低的困惑度和更穩定的熵。這一成績證明了 FS-DFM 模型在 AI 長文本寫作領域的潛力。

項目:https://machinelearning.apple.com/research/fs-dfm

** 劃重點:**  

📝 **FS-DFM 模型僅需8輪迭代,生成質量與傳統模型千輪相當。**  

🚀 ** 寫入速度提升最多128倍,極大提高長文本生成效率。**  

🔍 ** 性能測試顯示,FS-DFM 在困惑度和熵的關鍵指標上均優於其他大型模型。**