ChatGPT-5.4“动手”新突破：微信操作惊艳，浏览器失误又让人哭笑不得-行业峰会-数据世界

近期，科技圈被一个名为“原生电脑操控能力”（Native Computer Use）的概念刷屏，各大媒体纷纷报道“AI终于能接管你的电脑了”“GPT-5.4操控桌面超越人类水平”等消息，评论区也充斥着“为时已晚，有机体！”的惊叹。然而，面对如此热烈的宣传，不少人心中却充满了怀疑，“AI操控电脑”并非新鲜话题，今年1月OpenClaw爆火时，大家就已见识过类似概念，且过去两年“agent时代”的呼声每隔几个月就会响起一次，但实际体验往往不尽如人意。那么，GPT-5.4的“原生电脑操控”究竟是真正的技术飞跃，还是又一次营销噱头？

为了揭开真相，有人亲自对GPT-5.4进行了大半天的测试，得出的结论是：它确实取得了显著进步，但远未达到宣传中的神奇程度。测试过程中，有些场景令人惊叹，有些则让人哭笑不得。可以确定的是，ChatGPT-5.4绝非仅仅内置了一个OpenClaw那么简单，它标志着ChatGPT终于学会了“动手”。

GPT-5.4是OpenAI首个具备原生电脑操控能力的主线模型。所谓“原生电脑操控能力”，简单来说，就是AI不再局限于聊天，而是能像人类一样直接操作电脑。它能够识别屏幕上的元素，如浏览器、按钮、输入框等，并自主进行点击、输入、切换窗口、滚动页面、提交表单等操作。若发现操作错误，还能回退或尝试其他方式。这与传统的自动化脚本截然不同，后者需要提前设定固定流程，一旦网页结构或按钮位置发生变化，脚本便无法运行，而原生电脑操控能力则具备随机应变的能力，能根据实际情况灵活调整操作。

以微信为例，其产品设计、底层架构和安全体系从一开始就未给第三方agent留下任何合规的技术通道，且微信开放平台至今未对外开放个人微信账号的私聊、群聊消息发送相关API接口。然而，ChatGPT-5.4却成功实现了在微信上的操作。有人通过Codex要求ChatGPT-5.4归纳24小时内的AI新闻，并以字母AI的风格转化为选题，最后发送到群里供同事查看，还在选题末尾注明消息由ChatGPT-5.4发送。ChatGPT-5.4不仅完成了任务，还主动提出将文字修改得更自然。它不仅能看懂屏幕元素，还能完整模拟键盘鼠标操作，这一表现令人震惊，毕竟就连OpenClaw在征服微信时都面临巨大挑战。

不过，ChatGPT-5.4在浏览器控制方面却出现了一些意外。当要求其打开douyin.com时，它却打开了“抖音。com”。原来，由于它是模拟键盘输入，而测试者的输入法为中文，导致输入错误。由于英语键盘没有输入栏，ChatGPT-5.4无法看到输入栏，因此当输入法切换为中文时，它便无法正常输入网页。在操作复杂页面时，它容易点错位置，操作速度通常比人类慢，且涉及付款、删除文件、处理隐私数据等高风险操作时，仍需人工监督。

OpenAI为ChatGPT提供了两种“动手”方式。一种是代码模式，AI通过编写Python Playwright脚本来操控浏览器和应用程序，精确执行点哪里、输入什么、如何导航等操作；另一种是截图模式，AI直接“看”屏幕截图，然后像人类一样发出鼠标和键盘指令，无需代码作为中间层。OpenAI还推出了“Playwright Interactive”实验性功能，让AI能够一边写代码一边实时测试，甚至在构建网页应用的同时自行打开浏览器调试。

在衡量AI通过截图加键盘鼠标自主操控桌面能力的OSWorld-Verified测试中，GPT-5.4取得了75.0%的成功率，上一代GPT-5.2仅为47.3%，而人类基准线为72.4%。这意味着GPT-5.4在“看着屏幕操作电脑”方面已超越普通人平均水平。在WebArena-Verified测试中，GPT-5.4成功率为67.3%；在Online-Mind2Web测试中，仅靠截图观察就达到了92.8%。这些数据表明，如今的ChatGPT在电脑操控方面已不再是实验室中的玩具，而是具备了实际应用能力。

OpenClaw对ChatGPT-5.4的加持作用显著。2026年2月14日，斯坦伯格加入OpenAI，负责推动下一代个人agent的研发，同时OpenClaw项目移交至独立开源基金会运营，OpenAI承诺提供持续的资源、资金和技术支持。然而，OpenClaw存在成本高昂的问题，由于软件会将上下文发送至大模型，导致某些场景下token消耗巨大。为此，OpenAI引入了“Compaction”机制，即上下文压缩。当AI执行长多步骤任务时，会自动总结和修剪中间过程的历史记录，仅保留关键信息，既维持了长任务的连贯性，又避免了token预算的过度消耗。这是GPT-5.4作为首个主线模型被训练支持的能力，此前仅有专门的Codex编码模型具备类似功能。

在推理能力方面，GPT-5.4 Thinking版本新增了一项实用特性：在处理复杂问题时，会先展示推理计划大纲，告知用户“我打算怎么做”。更关键的是，用户可在其推理过程中随时打断并调整方向，无需从头开始。这一功能解决了以往AI处理复杂任务时方向跑偏只能重新开始的问题。在专业知识工作的GDPval基准上，GPT-5.4取得了83.0%的成绩，较GPT-5.2提升了12个百分点；在BrowseComp基准上，GPT-5.4 Pro版本达到了89.3%，刷新了纪录。Mercor的APEX-Agents基准测试也显示，GPT-5.4在制作幻灯片、金融建模、法律分析等长周期专业任务中表现突出。

对于开发者而言，GPT-5.4带来了Tool Search这一重要更新。以往调用API时，所有可用工具的定义需全部塞入上下文，消耗大量token。如今，GPT-5.4仅加载轻量级工具列表，需要时再查询具体定义。在Scale的 MCP Atlas基准测试中，这种方式在36个MCP服务器场景下，token消耗降低了47%，准确率保持不变。OpenAI还推出了ChatGPT与Microsoft Excel和谷歌Sheets的集成功能，GPT-5.4可读取单元格范围、执行多步分析、自动编写公式，对企业用户而言，这无疑是一大助力，AI不再仅仅是用户与表格之间的“传话筒”，而是直接参与工作。

然而，GPT-5.4的发布也引发了一些担忧。OpenClaw的“魔幻”之处不仅在于AI能做事，更在于其经常超出人类预期。当这种能力被内置到拥有数亿用户的产品中时，难免让人感到不安。目前，Codex可设置让ChatGPT-5.4完全访问用户电脑，实现真正的原生控制，但这一功能令人望而却步，毕竟电脑中存储着大量个人敏感数据。OpenAI在GPT-5.4的安全评估中提到，Thinking版本的欺骗行为概率更低，表明模型缺乏隐藏推理过程的能力，思维链监控仍是有效的安全工具。但这同时也反映出，他们确实在担心AI会“隐藏推理过程”。无论如何，GPT-5.4的发布标志着AI发展进入了一个新阶段，它不再仅仅是对话框中的助手，而是开始伸出“手”，触碰用户的屏幕、文件和工作流。