在人工智能领域,国产开源大模型GLM-4.7的发布引发了广泛关注。这款由智谱推出的模型,凭借其卓越的技术表现,在全球开源模型中脱颖而出,成为开发者们热议的焦点。从技术指标到实际应用,GLM-4.7都展现出了强大的竞争力,被视为国产模型在智能体工具方向上的重要突破。
在专业编码盲测榜单Code Arena上,GLM-4.7在Web开发方向排名第六,成为全球排名最高的开源模型,超越了GPT-5.2与Claude Sonnet 4.5,稳居国产模型榜首。这一成绩的取得,得益于GLM-4.7在代码、工具调用和推理能力三个方面的显著升级。在代码能力测试中,它在SWE-bench‑Verified和LiveCodeBench‑V6两项基准上分别取得了73.8%和84.9%的高分,整体水平与Claude Sonnet 4.5相当,处于开源模型的第一梯队。在复杂推理任务中,GLM-4.7在HLE(“人类最后的考试”)测试中,工具辅助条件下成绩达到42.8%,较GLM‑4.6提升超过12个百分点,甚至超过了GPT‑5.1 High。工具调用能力方面,GLM‑4.7在τ²‑Bench中拿到87.4%的成绩,BrowseComp在开启上下文管理后提升至67.5%,在多轮网页任务和交互式工具调用场景中表现稳定,进一步巩固了其“智能体向”模型的定位。
GLM‑4.7的内部思考机制也进行了重要调整。在“交错思考”的基础上,引入了保留式思考与轮级思考控制。模型会在每次生成和工具调用前进行推理,并在多轮任务中自动保留已有的思考结果,避免反复从零开始推导。开发者还可以按轮次决定是否启用推理过程,在简单请求中降低时延,在复杂任务中提高稳定性。这种设计增强了长任务执行中的一致性和可控性,为模型在代码智能体、终端任务和工具协同类基准上的整体跃升提供了支撑。模型还针对前端美学、长文本稳定性、网页生成结构等细节进行了优化。
为了验证GLM‑4.7在实际开发任务中的表现,智谱进行了100个真实编程任务的对比测试,覆盖前端开发、后端逻辑和指令遵循三个核心方向。结果显示,在前端任务中,GLM‑4.7相较4.6版本胜率提升至64.6%,在指令遵循场景中达到58.3%,在后端方向胜率稳定在46.7%。除了单点生成能力,GLM‑4.7还强化了多技能联动能力。在Z.ai平台上线的全栈技能环境中,GLM-4.7接入了全新的Skills模块,支持调用ASR语音识别、TTS语音合成、GLM‑4.6V视觉模型等多个模块进行统一调度,实现了工具之间的“调度逻辑”打通。
在实际测试中,GLM‑4.7的表现同样令人印象深刻。在3D控制任务中,GLM‑4.7输出了一段可直接运行的HTML代码,构建了一个由5000多个粒子构成的立体圣诞树场景,并集成了手势识别与UI反馈逻辑。用户可以通过手势控制圣诞树的炸开与收拢,形成照片墙的旋转动画,整个过程流畅自然。在UI生成任务中,GLM‑4.7成功复刻了iOS主界面,图标可点击,功能页可交互,计算器还能进行基础运算,整体体验流畅,图标风格和颜色搭配也具备基本审美。在前端代码实现任务中,GLM‑4.7生成了一个完整的双人格斗游戏界面,高度还原Switch主机的Joy-Con手柄配色和布局,角色逻辑和按键响应完整,具备真实游戏的框架感。
GLM‑4.7的发布,不仅提升了国产开源模型在全球的竞争力,也为开发者提供了更强大的工具。其开源代码在全球社区中已被下载超6000万次,付费API使用量长期居于OpenRouter全球前十,逐步进入开发者的实际工具列表。在智谱即将登陆港交所的背景下,GLM‑4.7的上线标志着国产大模型企业正从科研模型、开源生态向“真实使用”与“市场验证”过渡,开源国产模型正从“对标国际”迈向“领跑、实用”,GLM‑4.7无疑是这一进程中的重要代表。














