谷歌DeepMind推出DiffusionGemma：文本生成速度飙升，消费级显卡也能畅跑-行业峰会-数据世界

谷歌DeepMind近日发布了一款名为DiffusionGemma的开放实验模型，该模型专注于探索文本扩散技术，为文本生成领域带来了新的可能性。DiffusionGemma基于Apache 2.0许可协议开源，拥有260亿参数，采用混合专家（MoE）架构，能够一次性生成整段文本，在GPU上的文本生成速度最高可达自回归大语言模型（LLM）的4倍。

为了提升模型的运行效率，DeepMind与英伟达合作完成了全硬件栈的优化。DiffusionGemma不仅适配消费级硬件，如已针对GeForce RTX 5090和4090显卡完成量化适配，还能在企业级设备上发挥出色性能。无论是搭载Hopper架构、Blackwell架构并支持NVFP4内核的设备，还是面向本地桌面部署的英伟达DGX Spark、DGX Station，以及面向AI专业人员的RTX PRO系列产品，都能流畅运行DiffusionGemma。该模型原生支持NVFP4技术，能够在几乎不损失生成精度的前提下，大幅提升计算吞吐量，进一步加快整体运行速度。

在文本生成方面，DiffusionGemma突破了传统自回归LLM逐个token串行处理的模式。传统自回归语言模型的工作原理类似于打字机，从左至右逐一生成token。在云端场景中，服务端可以批量处理数千条用户请求，分摊硬件负载，因此效率较高。但在本地为单一用户运行时，这种逐词生成的方式会导致专用GPU或TPU利用率低下，硬件大部分时间处于等待下一个“输入字符”的空闲状态。DiffusionGemma则不同，它依托Gemma 4系列模型的单位参数性能，结合Gemini Diffusion相关研究，搭载全新的diffusion head（扩散输出头），能够一次性生成包含256个token的完整文本段落。这种设计让硬件算力得到充分利用，在行内编辑、代码补全、氨基酸序列、数学图谱等非线性应用场景中具有明显优势。

DiffusionGemma的推理阶段仅激活38亿参数，经过量化处理后，可在高端消费级专用显卡18GB显存的硬件限制内流畅运行。其文本扩散技术的原理与AI图像生成模型相似，图像模型从随机噪点开始，通过迭代优化最终生成清晰画面，而DiffusionGemma将这一逻辑应用于文本生成。它先生成一组随机的占位token作为文本生成的初始基底，然后进行多轮迭代计算，先锁定已经生成准确的token内容，再将这些有效信息作为上下文依据，持续修正和优化剩余文本，最终形成通顺、完整、可直接使用的文本结果。在生成文本的全过程中，该模型能够同步处理整段内容，衍生出新的实用能力，如精准补全复杂的Markdown格式，或近乎实时地生成并渲染代码。

除了极速推理，DiffusionGemma还具备智能自纠错能力。它将解码瓶颈从内存带宽转移至计算单元，在专用GPU上实现了token输出速度的提升。例如，在单张英伟达H100上，其生成速度可达每秒1000个token以上；在GeForce RTX 5090上，生成速度可达每秒700个token以上。该模型会迭代优化输出内容，可一次性对整段文本进行校验，实时修正错误。DiffusionGemma不局限于纯文本创作，还能理解文字语义、输出图形相关内容，可根据文字描述生成3D SVG图形。开发者还可通过微调进一步提升其在特定任务中的表现，如大模型高效微调开源框架Unsloth对DiffusionGemma进行数独任务微调，其双向注意力机制能降低处理难度。

DiffusionGemma主要面向追求高速、本地实时交互的研究人员与开发者，适用于各类对速度敏感的交互式本地工作场景，如行内编辑、内容快速迭代以及非线性文本结构生成等。不过，其主打优势主要体现在本地部署及低并发推理场景，并不适合高并发云端服务。在高查询量（QPS）的云端服务场景中，自回归模型可充分榨取计算资源，DiffusionGemma的并行解码优势会不断弱化，还可能推高服务成本。综合来看，在单张加速卡、中小批次任务的场景下，DiffusionGemma的吞吐性能优势最为突出，个人开发者、小团队在本地跑实验时使用能最大程度发挥其性能。但若追求极致生成质量，标准版Gemma 4仍是更好的选择。

IT之家6月11日消息，小米创办人、董事长兼CEO雷军今日宣布，将于6月13日上午9点在江苏盐城测试场进行小米YU7八项测试挑战直播。根据雷军和网友的评论互动，雷军可能会亲自上车测试。此外，标准版的交叉轴测试…

“虽然现在融资看起来很热，但我们并不认为这是泡沫，因为具身智能，尤其是它在物理环境真实泛化产生的价值是非常高的，对比未来的价值，现在的投入并没有那么高。”今天具身智能行业是不成熟的，我们希望能够为生产力服务…

极氪是李书福的“亲儿子”，2021年才成立，2024年5月冲上美股登陆纽交所，创下“最快上市造车新势力”纪录，那时候多少人喊“吉利系又赢麻了”。现在极氪进入新阶段，从独立上市公司变成吉利汽车的全资子公司，…

瑞财经吴文婷6月10日，深圳市丰宜科技集团股份有限公司（以下简称“丰宜科技”）在港交所递交招股书，农银国际担任独家保荐人。于往绩记录期，公司的点位网络已从截至2023年12月31日的106,197个点位扩…

当前，国资国企数字化改革持续纵深推进，能源行业加速迈向数智化、规范化高质量发展新阶段。山东能源集团发展服务集团(以下简称“发展服务集团”)作为山东能源集团专业化服务生活保障单位，形成了一张覆盖全国14个省、自治区、直辖市，涵盖461个服务项目的后勤服务网络

通俗解读：ONE 延续了钉钉老传统，点开消息就自动标记已读，员工哪怕没准备好回复，也被迫进入 “待回复” 状态，心理压力剧增。通俗解读：靠加班时长、在岗状态评判员工，哪怕是正常调休，也会被认定为工作不…

钱包 App 引入创建票证和用 Apple Cash 分摊账单功能，前者支持手动创建或扫描实体票证，后者在相机的新 Siri模式中扫描收据后，会提供分摊账单选项。 iOS 27 为 CarPlay 带来视…

IT之家 6 月 10 日消息，据“海油工程微讯”今晚分享，国内首台海上专用 PEM（质子交换膜）电解水制氢装置已于 6 月 5日完成模拟海上浮式平台晃荡环境适应性试验，实验结果满足 17 级台风自存工况，…

但让很多人没有想到的是，今年高考结束后，收获最多家长好评的，既不是什么刷屏广告，也不是什么爆款短视频。而这背后，其实藏着一个很值得思考的问题：为什么同样是借势高考，有的营销活动热闹几天便无人提起，而有的举…

6月10日，小米官方旗舰店今日发文宣布，小米响应国家网信办、市场监管总局号召，宣布加入反虚假测评联盟。小米表示，将持续反虚假测评、反恶意竞争、反误导评价、反消费欺诈，坚守真实底线、共建诚信生态、守护公平竞争…

而这次nova 16系列直接砍掉了Ultra版本，改成标准版、Pro、ProMax三档，在我看来就是砍掉一个版本，表面上是让你更容易选，实际上是要涨价，顶配的价格空间被拉得更开了。到底升级了什么这次no…

月 10 日消息，科技媒体 Wccftech 昨日（6 月 9 日）发布博文，报道称苹果 2027 年推出的 MacBook Neo 2有望配备 12GB 内存，让其成为支持端侧 AI 模型 AFM 3 C…

在全体与会嘉宾的共同见证下，大会隆重举行了第四届理（监）事会就职典礼，凭借卓越的品牌实力、技术创新能力和行业贡献，德技优品门窗董事长雷少军先生成功当选广东省门业协会第四届理事会副会长，德技优品门窗荣膺协会第…

三星 T9 存储卡能完美适配 4K 30FPS 视频的拍摄，实际上它的写入速度高达 130MB/s，远超 V60的要求，录制过程中不卡顿、不掉帧，拍摄 4K 60FPS 视频或者 8K 30FPS 视频也毫…