“AI教母”李飞飞携RTFM模型亮相,单芯片实时渲染3D世界开启新篇章

   时间:2025-10-18 06:20 来源:快讯作者:钟景轩

美国华人科学家、斯坦福大学计算机科学教授李飞飞,因其对人工智能领域的卓越贡献,被誉为“AI教母”。近日,由她担任联合创始人兼CEO的World Labs公司,正式发布了一款名为RTFM(Real-Time frame Model,实时帧模型)的全新实时生成式世界模型,再次引发科技界广泛关注。

RTFM基于大规模视频数据进行端到端训练,是一款自回归扩散Transformer模型。其最大亮点在于无需依赖显式3D表征,仅通过输入一张或多张2D图像,即可生成不同视角下的全新2D图像。业内人士称其为“学会渲染的AI”,因其能够精准建模3D几何、反射、阴影等复杂物理现象,甚至可以利用稀疏照片重建真实场景。

据介绍,该模型具备高效性、可扩展性和持久性三大核心优势。在硬件配置上,仅需一块英伟达H100 GPU芯片,即可实现实时渲染持久且3D一致的场景,无论是真实空间还是虚拟想象场景,均能提供交互式体验。李飞飞团队在技术文章中指出,随着算力成本持续下降,生成式世界模型将从中受益,并逐步占据主导地位。

前谷歌高级工程师Rui Diao对RTFM给予高度评价,认为其解决了长期困扰世界模型可扩展性的问题。他指出,传统视频架构在生成交互视频流时面临巨大挑战,例如生成60帧的4K视频每秒需处理超过10万个token,而维持一小时以上的持续交互,上下文token将突破1亿大关。基于当前计算基础设施,这种方案既不可行也不经济。

空间智能的概念最早由美国心理学家霍华德·加德纳提出,指人类或机器在三维空间中的感知、理解和交互能力。对于人类而言,它包括以三维方式思考、重现和修饰影像的能力;对于机器而言,则是指其在三维空间中处理视觉数据、精准预测并采取行动的能力。李飞飞曾表示,视觉能力引发了寒武纪大爆发,而“我们想要的不仅仅是能看会说的AI,我们想要的是能做的AI”。

随着生成式AI技术的兴起,“空间智能+世界模型”成为实现通用人工智能(AGI)的重要路径之一。强大的世界模型能够实时重建、生成并模拟具有持久性、可交互且物理精确的世界,这将彻底改变软件、机器人等多个领域。李飞飞认为,空间智能与世界模型是解决AI技术难题的关键。

今年3月,李飞飞联合Ben Mildenhall、Justin Johnson、Christoph Lassner三位学者创立World Labs,致力于研发高效、可扩展的生成式世界模型。RTFM的通用端到端架构能够随数据与算力增长不断优化,而“带位姿帧空间记忆”与“上下文调度”技术则确保了场景的持久性,即使长时间交互也能保持一致性。

在融资方面,World Labs于今年9月宣布获得2.3亿美元(约合人民币16亿元)投资,由a16z、NEA恩颐投资和Radical Ventures领投,AMD、Adobe、Databricks的风投部门以及Shinrai Investments LLC参与,英伟达创投部门也加入其中。公司目前拥有约24名员工,其中华人约占三分之一,成立仅三个月估值便达到10亿美元(约合70亿元)。

投资人透露,World Labs的未来规划分为三个阶段:第一阶段构建对三维、物理以及空间和时间概念有深入理解的空间智能大模型LWM;第二阶段支持增强现实(AR)应用;第三阶段将模型应用于机器人技术,改进自动驾驶汽车、自动化工厂和人形机器人等领域。李飞飞表示,团队最早将于2025年推出产品,并承认在盈利模式等方面仍需突破。

除了World Labs,李飞飞还在推动Behavior视觉挑战比赛的发展。该比赛旨在解决机器人学习中的三大痛点:任务缺乏标准化、任务体系不统一以及训练数据不足。今年10月,她正式发布了Behavior 1K挑战,这是一个包含1000个任务的综合仿真基准与训练环境,聚焦于日常家庭环境中的“长时序任务”。Behavior为全球研究者提供了开放源码的训练与评测平台,促进不同机构在相同标准下进行比较和评估。

李飞飞近期表示,人类正处在一个文明性的转折时刻,语言、空间、视觉、具身智能等多种AI技术正在融合,并开始真正改变人类社会。她强调,只要始终将“以人为本”放在心中,这些技术就能成为造福人类的力量。

 
 
更多>同类内容
全站最新
热门内容