智谱AI正式上线并开源新一代大模型GLM-4.7,该版本在编码、推理与智能体能力上实现显著提升。在多项主流基准测试中,编程能力达到开源模型领先水平,在SWE-bench Verified中获得73.8%的SOTA分数,工具调用任务τ²-Bench得分87.4分,超越Claude Sonnet 4.5。
GLM-4.7 正式发布并开源。新版本专注于编程场景,全面强化了代码生成、长程任务规划与工具协同能力,在多项主流公开基准测试中位列开源模型榜首。
目前,GLM-4.7 已通过 BigModel.cn 开放 API,并在 z.ai 全栈开发模式中推出 Skills 模块,支持多模态任务的统一规划与协作。
核心能力升级
- 编程能力增强:支持多语言编码与终端智能体任务,在 Claude Code、TRAE 等框架中实现“先思考、再行动”机制,复杂任务表现更稳定。
- 前端审美优化:可生成视觉体验更佳的网页、PPT 与海报。
- 工具调用提升:在 BrowseComp 与 τ²-Bench 评测中分别取得 67.5 分与 87.4 分(开源 SOTA),超过 Claude Sonnet 4.5。
- 推理与数学能力进步:在 HLE 基准测试中获得 42.8% 得分,较上一代提升 41%,超越 GPT-5.1。
- 通用能力提升:对话更简洁智能,写作与角色扮演更具文采与沉浸感。
基准测试表现
在 Code Arena 盲测中,GLM-4.7 位列开源第一、国产第一,超越 GPT-5.2。其代码能力与 Claude Sonnet 4.5 对齐,在 SWE-bench-Verified、LiveCodeBench V6、SWE-bench Multilingual 及 Terminal Bench 2.0 等多项测评中均取得开源 SOTA 成绩。
实际场景提升
- 编程任务表现更稳:在 Claude Code 环境中测试 100 项真实任务,GLM-4.7 在稳定性与交付性上显著优于前代。
- 思考机制进化:支持交错式、保留式与轮级思考,适应不同复杂度任务,平衡推理开销与执行准确性。
- 综合任务执行力增强:能够独立完成复杂任务拆解与技术整合,输出完整可运行代码,降低调试成本。
- 前端设计即开即用:PPT 16:9 适配率从 52% 提升至 91%,海报排版与配色更具设计感。
GLM Coding Plan 同步更新
GLM Coding Plan 已集成 GLM-4.7,为开发者提供性能、速度与价格的最优组合,全面支持思考模式,优化工具调用链路,并强化长上下文下的指令遵循与交付可控性。