谷歌“闷声干大事”:DiffusionGemma模型登场,文字生成速度飙升4倍

   时间:2026-06-11 23:04 来源:快讯作者:任飞扬

当行业目光聚焦于大模型“逐字生成”的自回归架构之争时,谷歌悄然推出了一款颠覆性产品——DiffusionGemma。这款基于扩散模型的文本生成工具,通过并行处理机制将生成速度提升至每秒千级token,在消费级显卡上即可实现本地化部署,为AI写作领域开辟了新赛道。

传统自回归模型如同打字机般逐字输出,每个新token的生成都需重新加载全部参数,导致GPU算力在等待中闲置。DiffusionGemma则采用印刷机式工作模式:在256个token的虚拟画布上,模型通过多轮去噪同步优化所有字符,将计算任务转化为GPU擅长的并行处理。测试数据显示,该模型在H100显卡上达到1000+ tokens/s的生成速度,较同参数量的自回归模型提升4倍,消费级RTX 5090显卡也能稳定输出700+ tokens/s。

技术突破背后是创新的架构设计。模型采用混合专家(MoE)架构,260亿参数中仅需激活38亿,量化后显存占用仅18GB,这意味着普通用户的4090显卡即可流畅运行。更值得关注的是其双向注意力机制:每个token生成时都能参考画布上所有字符,实现实时自我修正。在数独生成测试中,经过微调的模型成功率从0%跃升至80%,展现出处理复杂逻辑任务的独特优势。

尽管在文本质量基准测试中,DiffusionGemma仍落后于传统模型,但谷歌明确将其定位为速度敏感型场景的解决方案。NVIDIA的全面支持为模型落地铺平道路——从消费级显卡到DGX超级计算机,从vLLM推理框架到llama.cpp社区项目,生态链已完整覆盖开发部署全流程。目前模型采用Apache 2.0开源协议,开发者可在Hugging Face平台直接获取预训练权重。

这场技术变革并非谷歌独舞。今年2月,初创公司Inception Labs已推出商用扩散文本模型Mercury 2,其宣称的速度优势引发行业震动。谷歌的跟进则将技术验证推向新高度:当AI生成不再受限于串行处理,现代GPU的并行算力将释放多大潜能?随着DiffusionGemma开源生态的完善,文本生成领域或许正迎来从“打字机时代”向“印刷机时代”的关键跃迁。

 
 
更多>同类内容
全站最新
热门内容