Diffusion Language Models: 系統性實驗對比8種擴散語言模型

Marcus Chen

2026年6月22日

175

original

一篇來自arXiv的論文對8種現代擴散語言模型進行了系統性實驗分析，覆蓋推理、程式設計、翻譯、知識問答等8個基準，兼顧生成質量與計算效率。論文揭示了擴散模型在並行生成和可控性上的潛力，但也指出其與自迴歸模型在部分任務上的差距。對關注文字生成新正規化的開發者與研究者具有參考價值。

自迴歸語言模型（如GPT系列）長期統治著自然語言處理領域，它們逐詞預測下一個token，生成流暢但順序化的文字。然而，一種被稱為擴散語言模型（Diffusion Language Models, DLMs）的新正規化正在悄悄崛起。這些模型拋棄了傳統的自迴歸方式，轉而通過迭代去噪的過程來生成文字——就像擴散影象模型從高斯噪聲中還原影象一樣。最近，一篇來自arXiv的論文對八種主流的擴散語言模型進行了全面而系統的實驗分析，覆蓋了推理、程式設計、翻譯、知識問答和結構化問題求解等八個基準測試，同時兼顧了生成質量和計算效率。

這篇論文的標題很直白：《Diffusion Language Models: An Experimental Analysis》。它由多位研究者合作完成（arXiv:2606.19475），目的是解決當前DLM領域一個痛點：各個論文使用不同的評估協議、資料集和超引數，導致很難公平比較它們的能力和權衡。論文選擇了八個有代表性的DLM架構，包括Diffusion-LM、SSD-LM、Bit Diffusion、MDLM、D3PM、DiMA、SEDD和PLANNER，並對比了它們與經典自迴歸模型（如GPT-2）的表現。

實驗設計與關鍵發現

論文的實驗設計值得關注。他們不是簡單地跑一遍基準分數，而是同時對生成質量和計算效率做了嚴格的控制。例如，在推理任務（如GSM8K）上，DLMs的表現與自迴歸模型相當接近，但某些模型在程式設計任務（如HumanEval）上仍有明顯差距。翻譯任務中，擴散模型的並行生成特性帶來了一定的速度優勢，但準確率略低於自迴歸模型。一個有趣的發現是：在可控文字生成（如情感轉向、主題控制）方面，DLMs展現出獨特的靈活性——可以通過調整去噪過程中的引導條件來改變輸出屬性，而無需重新訓練。

論文還細緻分析了推理預算（即去噪步數）對效能的影響。增加步數通常能提升質量，但代價是計算時間拉長。某些架構（如Bit Diffusion）在極少的步數下就能達到不錯的效果，這對實際部署很有意義。

哪些場景值得關注？

對於開發者而言，DLMs目前最適合那些對並行生成和文字編輯有需求的任務。比如：

文字風格遷移：將一段中性文字改為幽默或正式風格，而不需要重新生成整個句子。
文字重寫與糾錯：通過區域性去噪修改片片段，保持上下文連貫。
長文字生成中的一致性控制：擴散模型在生成過程中可以整體考慮序列的全域性結構，比自迴歸模型更容易避免前後矛盾。

不過，論文也明確指出，在純粹的開放域生成（如故事創作）和知識密集型問答上，當前DLMs還未能全面超越同等規模的自迴歸模型。這主要源於擴散模型在訓練和取樣上的更高開銷，以及自迴歸模型在多年優化中積累的工程優勢。

「擴散語言模型並非要完全替代自迴歸模型，而是提供一種不同的權衡：在並行性、可控性和區域性編輯能力上拿分，但在極致的流利度和知識記憶上稍遜一籌。」 —— 論文作者之一在部落格中這樣評論。

實用視角：對AI行業意味著什麼？

這篇論文雖然不是產品釋出，但對從業者有很強的指導意義。它首次給出了公平的橫向對比，讓研究人員可以判斷哪種架構值得繼續投入。對於AI應用開發者來說，這意味著：

如果你想打造一個實時文字編輯工具或條件化文字生成產品，擴散語言模型可能是比GPT更好的基礎架構。例如，一個AI寫作助手如果基於DLM，可以允許使用者在任意位置改寫、擴充套件或縮小文字，而不需要從頭生成。這種互動體驗目前很難用自迴歸模型實現。

另一方面，如果你追求極致的文字質量（比如營銷文案或新聞摘要），目前自迴歸模型仍然是更穩妥的選擇。但要注意，這項技術仍在快速發展——論文中提到的DLM在推理基準上的表現已經接近GPT-2水平，而GPT-2是在2019年釋出的。考慮到擴散模型領域的進展速度，未來一兩年內我們很可能看到更多實用化部署。

總結

這篇論文為擴散語言模型領域提供了急需的基準和清晰的分析。它告訴我們，DLMs不是萬能的，但也不是玩具——在特定場景下，它們能提供自迴歸模型無法替代的特性。對於正在評估下一代文字生成技術的團隊，這是一個值得深度閱讀的參考。接下來，我們可以關注開源社羣是否會出現基於這些模型的實用工具，尤其是在並行生成和文字編輯方向。

擴散語言模型DLM自迴歸模型文字生成並行去噪可控文字生成arXiv論文語言模型對比實驗分析