

前两天 APPSO 提到,大模子行将迎来史上最自豪的一个月,这就来了。
而 Claude Opus 4.6 「厄运」成为配景板,一天之内被超越两次。
早上 Anthropic 发布了 Claude Mythos Preview,在 SWE-bench Pro 上拿下 77.8%,把 Opus 4.6 的 57.3% 甩在死后。这个分数意味着它能在确切 GitHub 仓库里定位并建树高难度工程 Bug,一经超越了绝大无数东说念主类标准员。
可 Mythos Preview 暂时候歧通俗用户怒放,与此同期,另外一个超 Opus 4.6 的模子出现了——智谱开源了 GLM-5.1。

GLM-5.1 SWE-bench Pro 得分 58.4%,超越 Opus 4.6 的 57.3%,也超越 GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也发推祝颂:「SWE-Bench Pro 上推崇最佳的模子咫尺在 HuggingFace 上开源了!宽饶 GLM 5.1!」

环球第三,开源第一。固然没等来 DeepSeek V4,但开源新一哥照旧来了,依然是我们国产大模子。
说真话,我第一反馈是又来了,大模子的「榜单狂欢」,每次发布会王人是「史诗级进步」,各家模子在榜单上各领风数小时,此次的脚本有什么不同呢。
APPSO 看完 GLM-5.1 的期间细节和体验后,带你望望这个模子是什么水平
从 20 步到 1700 步,握续责任 8 小时
GLM-5.1 最让东说念主没思到的,不是跑分,是它能责任多久。
智谱有个一个案例让我印象相比深。8 小时从零构建 Linux 桌面系统。不是写几个 demo 文献那种「构建」,是确切从零启动,画架构、写代码、跑测试、修 bug,历时 8 小时整,施行了 1200 多步,终末产出了一套功能完善的 Linux 桌面系统。

包括完整的桌面、窗口处治器、景况栏、应用标准、VPN 处治器、中笔墨体扶直、游戏库,4.8MB 的配套文献。这十分于一个 4 东说念主团队一周的责任量。
全程莫得东说念主参与测试、审查代码。GLM-5.1 以至给我方的代码写了讲究测试,并且跑过了。
知乎标准员博主 Toyama nao 作念了个更狠的测试。他给 GLM-5.1 扔了三个工程样式:用 Swift 写 macOS 的 OpenGL 渲染器、用 Flutter 开辟全功能聊天软件同期用 Golang 开辟工作端、自选期间栈开辟纯网页端相频编著应用。每个样式跑 10-12 轮领导词,每轮 1500-2000 字。
效果 GLM-5.1 成为第一个通过他全部测试工程的国产模子,亦然第一个认真超越 Sonnet 4.5 Thinking 的国产模子。

他的评价是:「GLM-5.1 大幅推广了编程的适应限制,不再是前端 only 战神,也不仅仅 oneshot 形势货,是不错在复杂工况下充任编程主力。」但他也指出了问题:「超长高下文时容易幻觉爆炸,如若遭遇 2 轮改不好一个问题,不要抱有荣幸,奏凯重开。」
旧年年底,AI 智能体大致只可完成 20 个枢纽。GLM-5.1 咫尺不错完成 1700 个枢纽。这是模子能不行确切「孤苦责任」的分水岭。
智谱在期间阐发里解释了枢纽突破点:畴昔的模子,包括 GLM-5,会在早期快速获取收益后就插足瓶颈期。它们反复尝试已知的优化技能,但无法在一条路走欠亨时主动切换战略。
GLM-5.1 的考研看法即是突破这个瓶颈,让模子大约在一个固定战略内进行增量调优,当收益趋于停滞时,主动分析 Benchmark 日记、定位现时瓶颈,然后跳转到结构性不同的决策。
向量数据库优化案例即是典型的「道路型」优化轨迹。GLM-5.1 用了 655 次迭代,把查询迷糊从 3108 QPS 沿途推到 21472 QPS,leyu进步了 6.9 倍。

这个流程中,模子我方完成了从全库扫描切到 IVF 分桶调回、引入半精度压缩、加入量化粗排、作念两级路由,再到提前剪枝的整套优化链条。每一次超越王人伴跟着顷刻间的 Recall 下落,因为模子在探索新标的时会暂时冲突敛迹,随后再调回来。这个「冲突 - 建树」的轮回自身即是有用优化的鲜艳。
在 KernelBench Level 3 优化基准上,GLM-5.1 对 50 个确切机器学习诡计负载进行了超越 24 小时的不拒绝迭代,最终获取 3.6 倍的几何平均加快比,显贵高于 torch.compile max-autotune 模式的 1.49 倍。模子自主编写定制 Triton Kernel 和 CUDA Kernel,独揽 cuBLASLt epilogue 交融并实施 shared memory tiling 与 CUDA Graph 优化,隐秘了从高层算子交融到微架构级调优的完整期间栈。

还有一个更故兴致的测试:Vending Bench 2。这个基准条件模子模拟筹画一年的自动售货机业务,需要恒久盘算推算和资源处治。GLM-5.1 最终账户余额达到 $4,432,在开源模子中名次序一,接近 Claude Opus 4.5 的水平。
744B 参数,零英伟达芯片,资本裁减 97%
GLM-5.1 的期间规格值得细看:744B 参数的混杂大众模子(MoE),每个 token 激活 40B 参数,28.5T tokens 考研数据,集成了 DeepSeek Sparse Attention(DSA)来裁减部署资本同期保握长高下文本事。200K 高下文窗口,最大输出 131,072 tokens。
更枢纽的是,通盘这个词模子全部使用华为昇腾 910B 芯片考研,莫得英伟达 GPU 参与。在算力被卡脖子的情况下,国产模子依然能作念到环球第三、开源第一。
开辟者 Beau Johnson 把我方部署的 OpenClaw 背后的模子从 Claude Opus 4.6 切换到 GLM-5.1,体验上莫得任何分离,但资本从 1000 好意思元暴砍至 30 好意思元驾驭,裁减了 97%。GLM-5.1 的输入资本是 Claude Opus 的 1/5,输出资本是 1/8。肤浅来说:接近 Opus 的本事,20% 的价钱。

并且 GLM-5.1 是开源的。MIT License,最宽松的开源许可证之一。你不错拿去改,拿去商用,拿去作念任何事。扶直 vLLM、SGLang、xLLM 等主流推理框架,不错奏凯在土产货部署。
天然 GLM-5.1 也不是莫得进步的空间,部分开辟者反馈,GLM-5.1 的推理速率唯有 44.3 tokens/ 秒,在同类家具没太大上风。复杂任务以至要一小时起步,哪怕 Pro 套餐额度是 Claude 的 15 倍,也可能不太够用。
这些问题王人是确切存在的。GLM-5.1 不是好意思满的,但这不妨碍它成为一个里程碑。
GLM-5.1 的真理,不在于它比 Opus 4.6 强些许,而在于它解说了,在算力被卡脖子的情况下,国产模子依然能作念到开源第一。并且它是开源的,任何东说念主王人不错用,任何东说念主王人不错改。
你睡眠的 8 小时,咫尺不错是 AI 上班的 8 小时了。并且这个 AI ,是开源的,是国产的,是任何东说念主王人不错用的。
附体验气象
1. 官方 API 接入
- BigModel 怒放平台:https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
- Z.ai:https://docs.z.ai/guides/llm/glm-5.1
2. 家具体验
- GLM-5.1 行将登陆 Z.ai:https://chat.z.ai
3. 开源汇聚
- GitHub:https://github.com/zai-org/GLM-5
- Hugging Face:https://huggingface.co/zai-org/GLM-5.1
- ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1leyu体育
华体会体育(HTHSports)官网入口
