过去一年,AI 编程工具更多的是在单点工程化问题上表现出色,但面对复杂系统工程时常常力不从心 。为进一步突破复杂系统工程与长程智能体(Agent)任务的性能瓶颈,七牛云 AI 大模型推理平台近日正式上线智谱新一代旗舰基座模型——GLM-5 。

作为专为 Agentic Engineering 打造的基座模型,GLM-5 能够在复杂多步骤依赖关系及长程任务中保持目标一致性并提供可靠生产力 。依托七牛云全新推出的 Agent Bus 免复杂配置长程任务队列 ,企业与开发者能够彻底告别繁琐的命令行手动配置门槛 ,在保障预算与权限可控的前提下 ,以更低廉的部署成本 ,轻松驾驭并规模化落地企业级复杂 AI 应用场景。

在智谱 GLM-5 正式发布前,业内曾出现一个名为“Pony Alpha”的神秘模型,各方面性能表现亮眼,直到正式发布才揭开身份。这是智谱新一代旗舰基座模型,面向 Agentic Engineering 打造,能够在复杂系统工程与长程 Agent 任务中提供可靠生产力。在全球权威的 Artificial Analysis 榜单中,GLM-5 位居全球第四、开源第一。

基座升级:更大规模,更低成本

GLM-5 的基座架构进行了全面升级。参数规模从 355B(激活 32B)扩展至 744B(激活 40B),预训练数据从 23T 提升至 28.5T。更关键的是,GLM-5 首次集成了 DeepSeek Sparse Attention(稀疏注意力机制),在保持长文本效果的同时降低部署成本

对开发者而言,更大的基座通常意味着更强的通用能力,而稀疏注意力机制可能降低实际使用成本,这对需要处理长文本的应用场景尤其重要。从技术架构来看,这次升级是在效率和成本之间找到了新的平衡点。

编程能力:从工程师到架构师

智谱官方公布的测试数据显示,GLM-5 在多个编程评测中取得了较好成绩。在 SWE-bench-Verified 上得分 77.8,在 Terminal Bench 2.0 上得分 56.2,官方称这两项均为开源 SOTA。这两个测试的特点是要求模型解决真实 GitHub 上的 issue,而不只是生成代码。Terminal Bench 2.0 更是要求模型在命令行环境中完成复杂任务,涉及调试、编译、运行等完整流程。 

智谱内部评估显示,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越 GLM-4.7(平均增幅超过 20%),并称使用体感逼近 Claude Opus 4.5。从早期用户反馈来看,GLM-5 在处理复杂系统工程任务时,确实比上一代有明显改进。

Agent 能力:从执行指令到理解目标

智谱官方公布的数据显示,GLM-5 在多个 Agent 评测中取得了较好成绩。在 BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用和多步骤任务执行)、τ²-Bench(复杂多工具场景下的规划和执行)等测试中,官方称 GLM-5 均取得开源第一。

特别值得关注的是 Vending Bench 2 测试。这个测试要求模型经营一个模拟的自动售货机业务,持续一年时间。GLM-5 最终账户余额达到 4432 美元,官方称开源模型第一,接近 Claude Opus 4.5。

这个测试的设计,它不只是考察模型能否执行指令,而是考察模型能否理解长期目标、管理资源、应对市场变化。这些能力是 Agentic Engineering 的核心:模型不仅要能写代码、完成工程,还要能在长程任务中保持目标一致性、进行资源管理、处理多步骤依赖关系,成为真正的 Agentic Ready 基座模型。

七牛云 Agent Bus:免复杂配置的长程任务队列

AI 的交互模式正在从即时问答转向长程任务。但像 Claude Code、OpenClaw 这类强大的工具,目前只能在命令行中手动配置和运行,对普通用户来说门槛较高。七牛云 MaaS 平台上线的 Agent Bus,把这个过程简化了。 

 

在控制台创建任务后,无需盯着屏幕等待,长任务完成时会自动通知你,想查看时也能随时回看执行过程。你还可以为任务设置预算上限和权限边界,确保可控。

对于不想长用和费力配置主机的开发者,这是一个零门槛体验 Agent 能力的方式,像使用共享出行工具一样,无需买车养车,按需使用即可。

立即体验智谱GLM-5 

现在,通过七牛云 MaaS 平台就能快速体验 GLM-5。平台集成了百款模型,兼容 OpenAI 格式,支持主流开发工具,新用户注册即送免费 Token。

点击「阅读原文」,可立即体验智谱 GLM-5。