ChatGPT-5.4“动手”新突破:微信操作惊艳,浏览器失误又让人哭笑不得

   时间:2026-03-07 15:24 来源:快讯作者:苏婉清

近期,科技圈被一个名为“原生电脑操控能力”(Native Computer Use)的概念刷屏,各大媒体纷纷报道“AI终于能接管你的电脑了”“GPT-5.4操控桌面超越人类水平”等消息,评论区也充斥着“为时已晚,有机体!”的惊叹。然而,面对如此热烈的宣传,不少人心中却充满了怀疑,“AI操控电脑”并非新鲜话题,今年1月OpenClaw爆火时,大家就已见识过类似概念,且过去两年“agent时代”的呼声每隔几个月就会响起一次,但实际体验往往不尽如人意。那么,GPT-5.4的“原生电脑操控”究竟是真正的技术飞跃,还是又一次营销噱头?

为了揭开真相,有人亲自对GPT-5.4进行了大半天的测试,得出的结论是:它确实取得了显著进步,但远未达到宣传中的神奇程度。测试过程中,有些场景令人惊叹,有些则让人哭笑不得。可以确定的是,ChatGPT-5.4绝非仅仅内置了一个OpenClaw那么简单,它标志着ChatGPT终于学会了“动手”。

GPT-5.4是OpenAI首个具备原生电脑操控能力的主线模型。所谓“原生电脑操控能力”,简单来说,就是AI不再局限于聊天,而是能像人类一样直接操作电脑。它能够识别屏幕上的元素,如浏览器、按钮、输入框等,并自主进行点击、输入、切换窗口、滚动页面、提交表单等操作。若发现操作错误,还能回退或尝试其他方式。这与传统的自动化脚本截然不同,后者需要提前设定固定流程,一旦网页结构或按钮位置发生变化,脚本便无法运行,而原生电脑操控能力则具备随机应变的能力,能根据实际情况灵活调整操作。

以微信为例,其产品设计、底层架构和安全体系从一开始就未给第三方agent留下任何合规的技术通道,且微信开放平台至今未对外开放个人微信账号的私聊、群聊消息发送相关API接口。然而,ChatGPT-5.4却成功实现了在微信上的操作。有人通过Codex要求ChatGPT-5.4归纳24小时内的AI新闻,并以字母AI的风格转化为选题,最后发送到群里供同事查看,还在选题末尾注明消息由ChatGPT-5.4发送。ChatGPT-5.4不仅完成了任务,还主动提出将文字修改得更自然。它不仅能看懂屏幕元素,还能完整模拟键盘鼠标操作,这一表现令人震惊,毕竟就连OpenClaw在征服微信时都面临巨大挑战。

不过,ChatGPT-5.4在浏览器控制方面却出现了一些意外。当要求其打开douyin.com时,它却打开了“抖音。com”。原来,由于它是模拟键盘输入,而测试者的输入法为中文,导致输入错误。由于英语键盘没有输入栏,ChatGPT-5.4无法看到输入栏,因此当输入法切换为中文时,它便无法正常输入网页。在操作复杂页面时,它容易点错位置,操作速度通常比人类慢,且涉及付款、删除文件、处理隐私数据等高风险操作时,仍需人工监督。

OpenAI为ChatGPT提供了两种“动手”方式。一种是代码模式,AI通过编写Python Playwright脚本来操控浏览器和应用程序,精确执行点哪里、输入什么、如何导航等操作;另一种是截图模式,AI直接“看”屏幕截图,然后像人类一样发出鼠标和键盘指令,无需代码作为中间层。OpenAI还推出了“Playwright Interactive”实验性功能,让AI能够一边写代码一边实时测试,甚至在构建网页应用的同时自行打开浏览器调试。

在衡量AI通过截图加键盘鼠标自主操控桌面能力的OSWorld-Verified测试中,GPT-5.4取得了75.0%的成功率,上一代GPT-5.2仅为47.3%,而人类基准线为72.4%。这意味着GPT-5.4在“看着屏幕操作电脑”方面已超越普通人平均水平。在WebArena-Verified测试中,GPT-5.4成功率为67.3%;在Online-Mind2Web测试中,仅靠截图观察就达到了92.8%。这些数据表明,如今的ChatGPT在电脑操控方面已不再是实验室中的玩具,而是具备了实际应用能力。

OpenClaw对ChatGPT-5.4的加持作用显著。2026年2月14日,斯坦伯格加入OpenAI,负责推动下一代个人agent的研发,同时OpenClaw项目移交至独立开源基金会运营,OpenAI承诺提供持续的资源、资金和技术支持。然而,OpenClaw存在成本高昂的问题,由于软件会将上下文发送至大模型,导致某些场景下token消耗巨大。为此,OpenAI引入了“Compaction”机制,即上下文压缩。当AI执行长多步骤任务时,会自动总结和修剪中间过程的历史记录,仅保留关键信息,既维持了长任务的连贯性,又避免了token预算的过度消耗。这是GPT-5.4作为首个主线模型被训练支持的能力,此前仅有专门的Codex编码模型具备类似功能。

在推理能力方面,GPT-5.4 Thinking版本新增了一项实用特性:在处理复杂问题时,会先展示推理计划大纲,告知用户“我打算怎么做”。更关键的是,用户可在其推理过程中随时打断并调整方向,无需从头开始。这一功能解决了以往AI处理复杂任务时方向跑偏只能重新开始的问题。在专业知识工作的GDPval基准上,GPT-5.4取得了83.0%的成绩,较GPT-5.2提升了12个百分点;在BrowseComp基准上,GPT-5.4 Pro版本达到了89.3%,刷新了纪录。Mercor的APEX-Agents基准测试也显示,GPT-5.4在制作幻灯片、金融建模、法律分析等长周期专业任务中表现突出。

对于开发者而言,GPT-5.4带来了Tool Search这一重要更新。以往调用API时,所有可用工具的定义需全部塞入上下文,消耗大量token。如今,GPT-5.4仅加载轻量级工具列表,需要时再查询具体定义。在Scale的 MCP Atlas基准测试中,这种方式在36个MCP服务器场景下,token消耗降低了47%,准确率保持不变。OpenAI还推出了ChatGPT与Microsoft Excel和谷歌Sheets的集成功能,GPT-5.4可读取单元格范围、执行多步分析、自动编写公式,对企业用户而言,这无疑是一大助力,AI不再仅仅是用户与表格之间的“传话筒”,而是直接参与工作。

然而,GPT-5.4的发布也引发了一些担忧。OpenClaw的“魔幻”之处不仅在于AI能做事,更在于其经常超出人类预期。当这种能力被内置到拥有数亿用户的产品中时,难免让人感到不安。目前,Codex可设置让ChatGPT-5.4完全访问用户电脑,实现真正的原生控制,但这一功能令人望而却步,毕竟电脑中存储着大量个人敏感数据。OpenAI在GPT-5.4的安全评估中提到,Thinking版本的欺骗行为概率更低,表明模型缺乏隐藏推理过程的能力,思维链监控仍是有效的安全工具。但这同时也反映出,他们确实在担心AI会“隐藏推理过程”。无论如何,GPT-5.4的发布标志着AI发展进入了一个新阶段,它不再仅仅是对话框中的助手,而是开始伸出“手”,触碰用户的屏幕、文件和工作流。

 
 
更多>同类内容
全站最新
热门内容