大語言模型生成文字的速度一直是個瓶頸——尤其是需要逐字輸出的自迴歸架構,在長內容或實時場景下經常顯得拖沓。Google DeepMind 近期開源的 DiffusionGemma 試圖用一種非傳統思路解決這個問題:把擴散模型從影象生成領域搬到文字生成上,讓輸出速度提升整整 4 倍。
聽起來有些反直覺。畢竟擴散模型在影象領域以「多步去噪」著稱,速度並不算快。但 DeepMind 的做法是讓模型一次性預測多個 token,然後通過迭代細化來修正,而不是像傳統自迴歸模型那樣一個接一個地生成。實際效果是:在保持生成質量的前提下,吞吐量大幅提升。
不是替換 Gemma,而是讓它跑得更快
DiffusionGemma 並非一個全新的模型,而是建立在 Google 已有的開源語言模型 Gemma 之上的一套加速推理方案。它保留了 Gemma 的預訓練權重,只在推理階段採用擴散式取樣。這意味著開發者不需要重新訓練模型,只需替換推理流程就能獲得加速。
對部署者來說,這是一個很務實的思路。不用改動模型架構,不增加訓練成本,直接受益於更快的生成。尤其適合那些對低延遲敏感的對話系統或實時內容生成應用,比如聊天機器人、程式碼補全、寫作助手——使用者輸入後等幾秒才出結果,體驗會大打折扣。
DeepMind 在技術報告中給出了具體對比:在標準評測集上,DiffusionGemma 的生成速度是原生 Gemma 的 4 倍,而文字質量(如 PERPLEXITY、ROUGE 等指標)損失極小。部分場景下甚至因為並行候選,生成了更多樣的表述。
典型使用場景:實時互動和批量生成
最直接受益的場景是實時對話:當使用者等待每一句回覆時,DiffusionGemma 能在更短時間內輸出完整段落,減少打字感。其次是大規模離線批量生成,比如自動生成商品描述、新聞摘要或訓練資料擴充——因為單位時間內能處理更多請求,伺服器資源消耗也相應降低。
不過也要看到,擴散取樣本身仍有其迭代開銷。對於極短的生成(如僅輸出一個詞或短句),加速效果不明顯,甚至可能因多步迭代而略慢。但對於長段落(通常 100+ tokens),加速優勢就非常顯著了。
實用建議與下一步關注點
- 如果已經在用 Gemma 做推理,可直接嘗試替換推理指令碼,DiffusionGemma 程式碼已開源在 GitHub,整合成本不高。
- 關注硬體適配:當前方案主要針對 GPU 優化,CPU 上加速效果可能打折扣,具體取決於推理框架的並行化程度。
- 留意質量邊界:擴散步驟數(step count)是影響速度與質量的關鍵超引數,需要針對具體任務做調優。官方的預設配置(4 步)在多數任務上表現平衡。
DiffusionGemma 證明了一個老道理:有時候最快的路不是把引擎加大,而是換一條跑法。對於那些被自迴歸速度卡住的應用,這是一個值得嘗試的選項。











評論
暫無評論
成為第一個評論的人