在近日举办的英伟达GTC大会上,创始人兼CEO黄仁勋以一场长达两小时的主题演讲,将“Token”这一概念推向了行业焦点。几乎在同一时间,阿里巴巴宣布成立Token事业群,明确提出“创造、输送、应用”的完整链路。两大科技巨头的同步动作,标志着AI产业正从模型竞赛转向以Token为核心的生产力竞争。
Token作为大模型处理文本的基本单元,其重要性正在重塑AI产业链的度量标准。传统上,底层模型团队关注参数规模,应用层聚焦用户增长,云服务则紧盯算力利用率。但随着AI从感知、生成向推理阶段演进,Token与收入的关联愈发紧密——企业获取的算力越多,生成的Token量越大,收入随之增长,进而反哺模型智能化升级。这种正向循环,让英伟达成为最大受益者。
黄仁勋在演讲中直言,推理计算量在过去两年增长万倍,使用量激增百倍,AI正从“能感知”迈向“能工作”。基于此,他提出英伟达的全新战略:从数据中心转型为“Token工厂”。按照规划,未来每家AI公司都应以Token生产效率为核心指标,甚至Token本身将成为按吞吐量和交互速度定价的“大宗商品”。英伟达为此设计了分层定价体系:免费层以广告变现,中级层每百万Token收费3-6美元,高速层则高达45-150美元。黄仁勋强调,新架构将使免费层吞吐量极致提升,同时在高价值推理层级实现35倍效率飞跃。
为支撑这一目标,英伟达推出了专为智能体推理设计的Vera Rubin计算系统。该系统整合7款新芯片、5个机架和1台超级计算机,其中72块GPU通过NVLink高速互联,确保前填充计算与Token响应速度的平衡;全球首款采用LPDDR5内存的数据中心CPU——Vera CPU,则负责处理重复逻辑操作,解放GPU算力;BlueField 4+CX9存储平台与CPO Spectrum-X交换机,分别优化数据流处理与网络传输效率。整套系统采用液冷方案,安装时间从两天缩短至两小时,预计2026年下半年出货。据测试,其推理速度较上一代提升5倍,Token成本降低10倍,MoE模型所需GPU减少至四分之一。
面对异构计算融合的挑战,英伟达将收购的Groq LPU平台纳入体系,并开发操作系统Dynamo协调任务分配。黄仁勋建议,高吞吐负载可全量使用Vera Rubin,而代码生成等高价值场景可引入25%的Groq芯片。这种设计使数据中心在单位功耗下性能提升35倍,同时兼顾低延迟与高价值推理服务。英伟达还预告了2028年推出的Vera Rubin Ultra及Feynman架构,将3D堆叠、LPU集成、异构存储等技术列为未来核心。
黄仁勋的演讲还涉及当前热门的OpenClaw项目。他认为,这一智能体操作系统将重塑企业IT,推动SaaS公司向AaaS转型,使2万亿美元的产业规模扩展至数万亿美元。为应对安全风险,英伟达与开发者合作推出企业版NeMo Claw,通过“网络护栏”和“隐私路由”等技术保障数据安全。黄仁勋甚至预言,Token可能成为硅谷工程师年薪的一部分,“入职配额”或成招聘新趋势。
在图形计算领域,英伟达发布了被黄仁勋称为“图形学GPT时刻”的DLSS 5技术。该技术融合3D图形、结构化数据与生成式AI,通过确定性框架与概率计算的结合,实现内容的美观、精确与可控。为解决非结构化数据占比超九成的难题,英伟达同步推出cuDF和cuVS工具,分别处理结构化与非结构化数据,目前已被IBM、戴尔等企业整合进云服务体系。
从底层芯片到操作系统,从异构架构到数据工具,英伟达正构建覆盖Token生产全链条的“生产力套件”。这场转型不仅关乎技术路线,更预示着AI竞争规则的重写——当模型性能趋于同质化,谁能主导Token生产,谁就能掌握下一代AI产业的主导权。












