大语言模型生成文本的速度一直是个瓶颈——尤其是需要逐字输出的自回归架构,在长内容或实时场景下经常显得拖沓。Google DeepMind 近期开源的 DiffusionGemma 试图用一种非传统思路解决这个问题:把扩散模型从图像生成领域搬到文本生成上,让输出速度提升整整 4 倍。
听起来有些反直觉。毕竟扩散模型在图像领域以“多步去噪”著称,速度并不算快。但 DeepMind 的做法是让模型一次性预测多个 token,然后通过迭代细化来修正,而不是像传统自回归模型那样一个接一个地生成。实际效果是:在保持生成质量的前提下,吞吐量大幅提升。
不是替换 Gemma,而是让它跑得更快
DiffusionGemma 并非一个全新的模型,而是建立在 Google 已有的开源语言模型 Gemma 之上的一套加速推理方案。它保留了 Gemma 的预训练权重,只在推理阶段采用扩散式采样。这意味着开发者不需要重新训练模型,只需替换推理流程就能获得加速。
对部署者来说,这是一个很务实的思路。不用改动模型架构,不增加训练成本,直接受益于更快的生成。尤其适合那些对低延迟敏感的对话系统或实时内容生成应用,比如聊天机器人、代码补全、写作助手——用户输入后等几秒才出结果,体验会大打折扣。
DeepMind 在技术报告中给出了具体对比:在标准评测集上,DiffusionGemma 的生成速度是原生 Gemma 的 4 倍,而文本质量(如 PERPLEXITY、ROUGE 等指标)损失极小。部分场景下甚至因为并行候选,生成了更多样的表述。
典型使用场景:实时交互和批量生成
最直接受益的场景是实时对话:当用户等待每一句回复时,DiffusionGemma 能在更短时间内输出完整段落,减少打字感。其次是大规模离线批量生成,比如自动生成商品描述、新闻摘要或训练数据扩充——因为单位时间内能处理更多请求,服务器资源消耗也相应降低。
不过也要看到,扩散采样本身仍有其迭代开销。对于极短的生成(如仅输出一个词或短句),加速效果不明显,甚至可能因多步迭代而略慢。但对于长段落(通常 100+ tokens),加速优势就非常显著了。
实用建议与下一步关注点
- 如果已经在用 Gemma 做推理,可直接尝试替换推理脚本,DiffusionGemma 代码已开源在 GitHub,集成成本不高。
- 关注硬件适配:当前方案主要针对 GPU 优化,CPU 上加速效果可能打折扣,具体取决于推理框架的并行化程度。
- 留意质量边界:扩散步骤数(step count)是影响速度与质量的关键超参数,需要针对具体任务做调优。官方的默认配置(4 步)在多数任务上表现平衡。
DiffusionGemma 证明了一个老道理:有时候最快的路不是把引擎加大,而是换一条跑法。对于那些被自回归速度卡住的应用,这是一个值得尝试的选项。











评论
暂无评论
成为第一个评论的人