谷歌DeepMind近日发布了一款名为DiffusionGemma的开放实验模型,该模型专注于探索文本扩散技术,为文本生成领域带来了新的可能性。DiffusionGemma基于Apache 2.0许可协议开源,拥有260亿参数,采用混合专家(MoE)架构,能够一次性生成整段文本,在GPU上的文本生成速度最高可达自回归大语言模型(LLM)的4倍。
为了提升模型的运行效率,DeepMind与英伟达合作完成了全硬件栈的优化。DiffusionGemma不仅适配消费级硬件,如已针对GeForce RTX 5090和4090显卡完成量化适配,还能在企业级设备上发挥出色性能。无论是搭载Hopper架构、Blackwell架构并支持NVFP4内核的设备,还是面向本地桌面部署的英伟达DGX Spark、DGX Station,以及面向AI专业人员的RTX PRO系列产品,都能流畅运行DiffusionGemma。该模型原生支持NVFP4技术,能够在几乎不损失生成精度的前提下,大幅提升计算吞吐量,进一步加快整体运行速度。
在文本生成方面,DiffusionGemma突破了传统自回归LLM逐个token串行处理的模式。传统自回归语言模型的工作原理类似于打字机,从左至右逐一生成token。在云端场景中,服务端可以批量处理数千条用户请求,分摊硬件负载,因此效率较高。但在本地为单一用户运行时,这种逐词生成的方式会导致专用GPU或TPU利用率低下,硬件大部分时间处于等待下一个“输入字符”的空闲状态。DiffusionGemma则不同,它依托Gemma 4系列模型的单位参数性能,结合Gemini Diffusion相关研究,搭载全新的diffusion head(扩散输出头),能够一次性生成包含256个token的完整文本段落。这种设计让硬件算力得到充分利用,在行内编辑、代码补全、氨基酸序列、数学图谱等非线性应用场景中具有明显优势。
DiffusionGemma的推理阶段仅激活38亿参数,经过量化处理后,可在高端消费级专用显卡18GB显存的硬件限制内流畅运行。其文本扩散技术的原理与AI图像生成模型相似,图像模型从随机噪点开始,通过迭代优化最终生成清晰画面,而DiffusionGemma将这一逻辑应用于文本生成。它先生成一组随机的占位token作为文本生成的初始基底,然后进行多轮迭代计算,先锁定已经生成准确的token内容,再将这些有效信息作为上下文依据,持续修正和优化剩余文本,最终形成通顺、完整、可直接使用的文本结果。在生成文本的全过程中,该模型能够同步处理整段内容,衍生出新的实用能力,如精准补全复杂的Markdown格式,或近乎实时地生成并渲染代码。
除了极速推理,DiffusionGemma还具备智能自纠错能力。它将解码瓶颈从内存带宽转移至计算单元,在专用GPU上实现了token输出速度的提升。例如,在单张英伟达H100上,其生成速度可达每秒1000个token以上;在GeForce RTX 5090上,生成速度可达每秒700个token以上。该模型会迭代优化输出内容,可一次性对整段文本进行校验,实时修正错误。DiffusionGemma不局限于纯文本创作,还能理解文字语义、输出图形相关内容,可根据文字描述生成3D SVG图形。开发者还可通过微调进一步提升其在特定任务中的表现,如大模型高效微调开源框架Unsloth对DiffusionGemma进行数独任务微调,其双向注意力机制能降低处理难度。
DiffusionGemma主要面向追求高速、本地实时交互的研究人员与开发者,适用于各类对速度敏感的交互式本地工作场景,如行内编辑、内容快速迭代以及非线性文本结构生成等。不过,其主打优势主要体现在本地部署及低并发推理场景,并不适合高并发云端服务。在高查询量(QPS)的云端服务场景中,自回归模型可充分榨取计算资源,DiffusionGemma的并行解码优势会不断弱化,还可能推高服务成本。综合来看,在单张加速卡、中小批次任务的场景下,DiffusionGemma的吞吐性能优势最为突出,个人开发者、小团队在本地跑实验时使用能最大程度发挥其性能。但若追求极致生成质量,标准版Gemma 4仍是更好的选择。














