马斯克点赞Kimi：十一年未变的深度学习基石组件迎来新突破-科技数码-数据世界

科技领域近日迎来一则备受瞩目的消息：特斯拉与SpaceX创始人埃隆·马斯克，在社交平台X上对一家中国AI公司月之暗面的技术成果公开点赞，称其“做出了令人印象深刻的结果”。这一表态在AI圈引发广泛关注，毕竟马斯克向来以在AI领域观点犀利、要求严苛著称，此前没少批评Anthropic和OpenAI，甚至曾直言Anthropic的图标设计不妥。

马斯克此次点赞的并非模型，而是月之暗面团队提出的一种全新架构改进方式。现代大语言模型，无论是GPT、Claude，还是国内的豆包、DeepSeek，以及月之暗面自家的K2.5，底层架构都基于Transformer。而Transformer能训练到几十层甚至上百层不崩溃，得益于“残差连接”机制。该机制由何恺明在2015年参与的ResNet论文提出，后被Transformer沿用。其原理是每一层网络计算后，将输出与输入相加传至下一层，如此梯度在反向传播时可直达底层，避免因层数过深而消失。

然而，这种“加法”存在一定问题。不同层输出的信息在最终隐藏状态中权重相同，随着层数增加，早期层信息被稀释，后面层需输出更大数值才能产生影响，进而加剧不稳定性，这一现象被称为“PreNorm稀释”。月之暗面团队发现，这一问题与早年RNN面临的困境有结构上的对称性。RNN在时间维度上做固定权重累加，长距离依赖难以捕捉，Transformer用注意力机制替代其线性累加，解决了该问题。但在深度维度上，同样的问题却一直未得到解决。

月之暗面团队认为，标准残差连接本质是“深度维度上的线性注意力”，他们计划将其升级为“深度维度上的softmax注意力”，并提出了“理想版”方案——全注意力残差。具体做法是给每一层赋予可学习的查询向量，对之前所有层输出做注意力计算，产生归一化权重，当前层输入按此权重加权组合，不同token经过同一层时可从不同历史层提取信息。但这一方案在大规模训练时存在内存和通信开销过大的问题，因为需要存储和传递所有层输出。

为解决这一问题，团队又提出块注意力残差方案。他们将所有层分成若干块，块内用传统残差连接求和，块间用注意力机制选择性聚合。这样只需存储和传输每个块的汇总表示，内存占用大幅降低。在此基础上，团队还进行了一系列工程优化，如跨阶段缓存消除流水线并行中的冗余传输，两阶段推理策略分摊跨块注意力计算。最终，注意力残差作为标准残差连接的替代品，训练额外开销小，推理延迟增加不到2%。

团队通过两个实验验证这一改进的效果。在scaling law实验中，结果显示注意力在所有计算预算下都优于基线，效果相当于用1.25倍计算量训练出的基线模型。在实战验证中，团队用480亿参数的大模型，用超一万亿个词的数据进行完整预训练，在科学问答、数学推理、代码生成、综合知识等测试中，加了块注意力残差的版本全面超越未加的版本。训练动态分析也表明，块注意力残差缓解了PreNorm稀释问题，各层输出幅度稳定，梯度分布均匀。

论文还通过统一的结构化矩阵分析证明，标准残差连接及其变体本质都是深度维度上线性注意力的特例。自2015年ResNet以来，残差连接板块无实质性变化，而月之暗面的这篇论文是首个既有理论依据，又能大规模实际部署且低成本的方案，这也是马斯克点赞的原因。

月之暗面目前正处于上市前的关键阶段，融资进展顺利。2025年12月底完成5亿美元C轮融资，投后估值43亿美元；两个月后完成超7亿美元C+轮融资，投后估值突破100亿美元；3月中最新投前估值上升至180亿美元，新一轮10亿美元融资正在推进，3个月内估值增长超4倍。其Kimi K2.5模型发布不到一个月，累计收入就超过2025年全年总收入，个人订阅用户支付订单数在1月环比增长8280%，2月又环比增长123.8%，进入Stripe全球榜单前十。

不过，月之暗面也面临一些争议。几天前，OpenClaw创始人彼得·斯坦伯格公开质疑月之暗面的Kimi Claw产品。月之暗面此前推出OpenClaw的云端一键部署服务Kimi Claw，其逻辑与OpenClaw“本地优先”的设计理念相悖。OpenClaw的agent运行在用户设备上，数据不经过第三方，大模型仅提供操作指令。而Kimi Claw将数据搬到云端服务器，在安全和隐私层面风险不同。斯坦伯格的质疑在社区产生实际影响，最初询问的用户表示鉴于安全性问题，暂时不会使用该产品。

此时马斯克的点赞恰逢其时，在舆论场上，OpenClaw创始人的质疑与马斯克的认可形成鲜明对比。对于正在融资的月之暗面而言，马斯克的认可无疑极具分量，尽管不能过度解读其一条推文，但这一表态还是让更多人开始关注这篇论文，一个十一年未被触动的组件被重新审视，后续发展值得期待。