DiffusionGemma: 用擴散模型讓文字生成快 4 倍

Daniel Lee

2026年6月11日

162

original

Google DeepMind 釋出 DiffusionGemma，將擴散模型引入文字生成，基於 Gemma 實現 4 倍加速。不同於傳統自迴歸逐字輸出，新方法並行生成多個 token，大幅提升效率，尤其適合實時應用。本文分析其技術原理、實際效益與潛在侷限。

大語言模型生成文字的速度一直是個瓶頸——尤其是需要逐字輸出的自迴歸架構，在長內容或實時場景下經常顯得拖沓。Google DeepMind 近期開源的 DiffusionGemma 試圖用一種非傳統思路解決這個問題：把擴散模型從影象生成領域搬到文字生成上，讓輸出速度提升整整 4 倍。

聽起來有些反直覺。畢竟擴散模型在影象領域以「多步去噪」著稱，速度並不算快。但 DeepMind 的做法是讓模型一次性預測多個 token，然後通過迭代細化來修正，而不是像傳統自迴歸模型那樣一個接一個地生成。實際效果是：在保持生成質量的前提下，吞吐量大幅提升。

不是替換 Gemma，而是讓它跑得更快

DiffusionGemma 並非一個全新的模型，而是建立在 Google 已有的開源語言模型 Gemma 之上的一套加速推理方案。它保留了 Gemma 的預訓練權重，只在推理階段採用擴散式取樣。這意味著開發者不需要重新訓練模型，只需替換推理流程就能獲得加速。

對部署者來說，這是一個很務實的思路。不用改動模型架構，不增加訓練成本，直接受益於更快的生成。尤其適合那些對低延遲敏感的對話系統或實時內容生成應用，比如聊天機器人、程式碼補全、寫作助手——使用者輸入後等幾秒才出結果，體驗會大打折扣。

DeepMind 在技術報告中給出了具體對比：在標準評測集上，DiffusionGemma 的生成速度是原生 Gemma 的 4 倍，而文字質量（如 PERPLEXITY、ROUGE 等指標）損失極小。部分場景下甚至因為並行候選，生成了更多樣的表述。

典型使用場景：實時互動和批量生成

最直接受益的場景是實時對話：當使用者等待每一句回覆時，DiffusionGemma 能在更短時間內輸出完整段落，減少打字感。其次是大規模離線批量生成，比如自動生成商品描述、新聞摘要或訓練資料擴充——因為單位時間內能處理更多請求，伺服器資源消耗也相應降低。

不過也要看到，擴散取樣本身仍有其迭代開銷。對於極短的生成（如僅輸出一個詞或短句），加速效果不明顯，甚至可能因多步迭代而略慢。但對於長段落（通常 100+ tokens），加速優勢就非常顯著了。

實用建議與下一步關注點

如果已經在用 Gemma 做推理，可直接嘗試替換推理指令碼，DiffusionGemma 程式碼已開源在 GitHub，整合成本不高。
關注硬體適配：當前方案主要針對 GPU 優化，CPU 上加速效果可能打折扣，具體取決於推理框架的並行化程度。
留意質量邊界：擴散步驟數（step count）是影響速度與質量的關鍵超引數，需要針對具體任務做調優。官方的預設配置（4 步）在多數任務上表現平衡。

DiffusionGemma 證明了一個老道理：有時候最快的路不是把引擎加大，而是換一條跑法。對於那些被自迴歸速度卡住的應用，這是一個值得嘗試的選項。

DiffusionGemmaGoogle DeepMind文字生成加速擴散模型大模型推理優化Gemma實時文字生成

探索更多

相似工具

QuillBot

QuillBot 是一款集改寫、語法檢查、查重、摘要、翻譯於一體的 AI 寫作助手。提供8種預設改寫模式和無限自定義模式，支援瀏覽器擴充套件和桌面應用，幫助寫作者從初稿到終稿提升效率。免費版適合輕度使用，付費版解鎖全部功能。

PrometAI

PrometAI 是一款線上 AI 工具，專為創業者和企業設計，能夠快速生成結構清晰、內容詳實的商業計劃書。它提供分步引導、行業模板和專業框架，幫助使用者從零開始完成投資人級別的文件，大幅提升撰寫效率。

doc2mcp

doc2mcp 將任意文件 URL 轉化為託管、令牌安全的 MCP 伺服器，讓 Cursor、Claude、Windsurf 等 AI 代理直接搜尋和引用文件內容，避免幻覺。支援 Web 介面和 npx 命令，適用於 API 文件、內部 Wiki 等場景，快速提升 AI 開發效率。

FoundersPlan.ai

FoundersPlan.ai是一款AI驅動的商業計劃書生成工具，通過簡短問卷輸入創意、市場和目標，幾分鐘內即可生成包含財務預測的完整草案。適合創業者快速向投資人展示專業方案，大幅縮短籌備時間。

ThaiPo

ThaiPo 是一款內建於 LINE 聊天的泰英翻譯機器人，翻譯功能完全免費且無限制，僅需為記憶功能付費。它能學習使用者的俚語、糾正習慣和聯絡人，隨著使用時間增長，翻譯會越來越精準，真正理解使用者的表達方式。適合在泰國生活、工作或學習的外國人。

Auryxel AI

Auryxel AI 是一款 AI 驅動的社交媒體內容創作助手，可自動生成每日、每週、每月及年度內容策略、標題、標籤和視覺創意，覆蓋主流社交平臺，幫助品牌和個人高效規劃內容，節省時間。

開源專案

DeepSeek-Reasonix: 終端下的大模型程式設計代理

DeepSeek-Reasonix 是一款基於 DeepSeek 大模型的開源 AI 程式設計代理，原生執行於終端。通過獨創的字首快取機制，它能在長時間執行中保持穩定，減少重複計算。專案使用 Go 語言編寫，輕量高效，適合開發者作為常駐後臺的編碼助手。支援程式碼生成、解釋、除錯等常見任務，讓 AI 輔助自然融入命令列工作流。

MarkFlowy: AI賦能Markdown編輯，讓寫作更智慧

MarkFlowy 是一款開源 AI Markdown 編輯器，使用 TypeScript 開發，在 GitHub 上已獲 2316 星。它通過整合 AI 助手，幫助使用者更高效地寫作、翻譯和整理內容，同時保持 Markdown 的簡潔與可移植性。專案尚在早期，但已吸引大量開發者和寫作者關注。

lanhu-mcp: 自動分析需求生成前後端程式碼

lanhu-mcp 是一個開源的MCP伺服器，專為AI程式設計時代的團隊協作設計。它能自動解析需求文件，生成前後端程式碼並提供切圖下載，幫助團隊將需求分析效率提升200%。基於Python，易於整合到現有開發流程。

code-graph-rag: 用AI+知識圖譜查詢理解多語言程式碼庫

code-graph-rag 是一個基於知識圖譜的開源RAG系統，專為大型單體程式碼庫設計。它通過圖資料庫與LLM結合，實現跨語言程式碼的自然語言查詢、理解和編輯，幫助開發者高效管理複雜倉庫。

LinguaGacha: 給小說遊戲字幕做 AI 批量翻譯

LinguaGacha 是一個基於 AI 的開源翻譯工具，專為小說、遊戲文字、字幕等長文字設計。它通過呼叫大模型 API 實現一鍵批量翻譯，自動處理上下文銜接，輸出自然流暢的譯文，適合譯者、漢化組和追更外來作品的讀者使用。

小程序雷達: AI 驅動的小程序技術選型與趨勢追蹤

小程序雷達（wechat-miniapp-radar）是一個開源的AI驅動工具，幫助開發者追蹤小程序技術趨勢、進行技術選型診斷。基於TypeScript開發，在GitHub超51k星，適合小程序生態從業者。