谷歌蓄力AI新战场:十年自研TPU发力推理芯片,向英伟达发起全面挑战

   时间:2026-04-21 18:13 来源:快讯作者:杨凌霄

在人工智能芯片领域,一场新的竞争风暴正在酝酿。谷歌正凭借其自研芯片业务,向英伟达长期占据的市场主导地位发起有力挑战。本周,在拉斯维加斯举行的Google Cloud Next大会上,谷歌计划发布新一代张量处理单元(TPU),这一举措被视为其争夺AI推理市场的重要一步。

谷歌首席科学家Jeff Dean在接受采访时指出,随着AI查询处理需求的急剧增长,针对训练或推理工作负载设计专用芯片已成为必然选择。当前,AI芯片市场格局正经历深刻变化。英伟达的GPU在AI领域,尤其是模型训练环节,依然保持着行业标杆的地位。然而,推理市场的竞争却日益白热化。市场研究机构Gartner分析师Chirag Dekate认为,推理市场正成为新的“战场”,而谷歌在这一领域拥有显著的基础设施优势。

谷歌的芯片研发之路始于十多年前。当时,谷歌面临一个现实问题:现有的芯片和硬件无法在可控成本下,为其语言翻译和语音识别服务提供足够的算力支持。于是,谷歌决定逆势而上,开发定制硬件。TPU的核心设计理念是“聚焦解决计算量巨大的特定问题”,尽管这一理念在当时并不被主流观点所认可。

在研发过程中,谷歌的芯片团队与AI模型团队保持着紧密的协同关系。2017年,一篇具有里程碑意义的研究论文催生了当代大语言模型,这也促使TPU团队将研发重心转向支持更大规模AI系统训练的芯片设计。此后,谷歌DeepMind与芯片团队发现,TPU在执行强化学习任务时存在算力闲置的问题,于是他们调整了芯片之间的网络互联方式,以提高数据流转效率,避免算力浪费。这种内部反馈机制不仅提升了芯片性能,还增强了对“硬件级错误”的把控能力。谷歌科学家Paul Barham透露,如今他们能在10秒内完成对数十万枚加速芯片的故障排查。

谷歌芯片业务的商业突破同样引人注目。去年10月,Anthropic宣布扩大与谷歌的合作,将获取多达100万枚TPU。随后,谷歌发布的Gemini模型获得广泛好评,该模型正是基于TPU进行训练和运行的。此后,需求持续攀升。meta签署了一项价值数十亿美元、为期数年的TPU云服务协议。meta基础设施负责人Santosh Janardhan表示,TPU在推理方面可能具有优势,但也承认新平台存在学习门槛。对冲基金公司Citadel Securities计划在本次谷歌大会上分享其借助TPU实现比GPU方案更快模型训练速度的经验。阿布扎比科技集团G42旗下云业务Core42的临时CEO Talal Al Kaissi也表示,已与谷歌就TPU使用进行多轮磋商,并对合作前景持乐观态度。

在软件生态方面,谷歌也在积极补强。如今,TPU客户可以使用PyTorch等外部工具及第三方调度软件,不再局限于谷歌自有产品。同时,谷歌还在测试允许合作方将部分TPU部署于自有数据中心,而非必须依赖谷歌设施。

面对谷歌的强势进攻,英伟达并未坐以待毙。上月,英伟达推出了一款基于收购自Groq技术开发的推理芯片。英伟达CEO黄仁勋强调其芯片的多用途优势,称能够完成“大量TPU无法胜任的应用”。事实上,谷歌在实际部署中也同时使用TPU和GPU两种芯片。谷歌DeepMind CEO Demis Hassabis指出,顶尖AI实验室对TPU的兴趣尤为浓厚,许多团队希望同时在两种平台上运行模型。

谷歌的优势在于其拥有十余年的芯片设计经验、充裕的资金以及对AI模型的第一手洞察。在顶级AI开发商中,谷歌是唯一一家大规模自研芯片的公司,这使得其硬件与模型团队之间能够形成高效的双向反馈。Gimlet Labs联合创始人Natalie Serrino表示,现有TPU已非常适合处理新兴AI智能体的工作负载,是应对这类爆发式任务的理想工具。

然而,谷歌的芯片业务也面临挑战。芯片从研发到量产需要约三年时间,而AI模型的迭代速度远超这一周期,这使得精准预测未来客户需求变得异常困难。TPU团队成员Barham还担心,硬件与模型团队之间过于紧密的反馈循环可能导致团队只优化当前软硬件的契合度,而忽视更具突破性的新思路。为平衡这一矛盾,TPU团队有时会选择将芯片设计为“通用型”,以适应多种使用场景;有时则会并行推进两套不同设计方案,根据具体需求决定最终落地版本。谷歌芯片团队负责人Vahdat表示,只为谷歌内部生产TPU虽有好处,但也可能导致技术孤岛化,限制多样性和发展潜力。

 
 
更多>同类内容
全站最新
热门内容