MIT博士突破性成果:在Transformer内嵌入计算机,重塑LLM能力边界

   时间:2026-03-22 03:47 来源:快讯作者:柳晴雪

人工智能领域迎来一项颠覆性突破:一位麻省理工学院(MIT)博士带领团队成功将完整计算机系统嵌入Transformer架构,使大语言模型(LLM)首次具备原生计算能力。这项研究通过硬编码方式将WebAssembly(WASM)虚拟机整合进模型权重,让AI无需调用外部工具即可在数秒内完成百万级计算步骤,在求解复杂数独时实现100%准确率,彻底改写了传统模型在数值计算领域的尴尬记录。

研究团队采用的创新解码路径突破了传统注意力机制的效率瓶颈。通过限制二维注意力头的查询范围,他们开发出指数级加速的注意力机制,使模型在CPU环境下达到每秒生成3.3万个token的惊人速度——这一指标是MacBook M2 Pro解码速度的1200倍。尽管实际计算速度仍不及专用处理器,但该技术首次赋予LLM内在的确定性计算能力,使其能够自主完成乘法运算、多步优化等传统弱项任务。

雅典大学副教授Christos Tzamos领导的Percepta团队通过将C语言代码转化为token序列,使模型能够直接执行任意程序。在求解最小成本完美匹配问题时,系统通过自回归方式生成包含虚拟机状态、内存操作和控制流的动态轨迹。每个新token的生成仅需回溯少量先前步骤,这种设计使计算过程呈现图灵机般的线性扩展特征,有效规避了传统Transformer架构的指数级复杂度增长问题。

技术实现的关键在于对计算过程的轨迹编码。研究团队将虚拟机状态分解为指令指针、栈操作和算术运算等组件,通过固定长度的注意力窗口重构当前状态。这种设计使模型在处理长序列计算时,仍能保持恒定的计算复杂度。实验数据显示,系统在3分钟内即可完成传统方法需要数小时的复杂数独求解,且在百万级计算步骤中保持零误差率。

这项突破为AI应用开辟了全新可能性。数值计算、物理模拟和金融建模等领域将直接受益,密码学运算等对确定性要求严苛的场景也获得突破契机。有开发者将其类比为TI公司的DSP芯片架构:神经网络负责逻辑推理,嵌入式计算引擎处理高速运算,这种分工协作模式可能催生新一代混合智能系统。尽管当前研究仍处于实验室阶段,但其展现的技术路径已为解决"9.11与9.9大小比较"等基础性难题提供了根本性方案。

 
 
更多>同类内容
全站最新
热门内容