leyu体育 Claude Opus 4.6 一天之内被超越两次，此次来自国产模子

前两天 APPSO 提到，大模子行将迎来史上最自豪的一个月，这就来了。

而 Claude Opus 4.6 「厄运」成为配景板，一天之内被超越两次。

早上 Anthropic 发布了 Claude Mythos Preview，在 SWE-bench Pro 上拿下 77.8%，把 Opus 4.6 的 57.3% 甩在死后。这个分数意味着它能在确切 GitHub 仓库里定位并建树高难度工程 Bug，一经超越了绝大无数东说念主类标准员。

可 Mythos Preview 暂时候歧通俗用户怒放，与此同期，另外一个超 Opus 4.6 的模子出现了——智谱开源了 GLM-5.1。

GLM-5.1 SWE-bench Pro 得分 58.4%，超越 Opus 4.6 的 57.3%，也超越 GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也发推祝颂：「SWE-Bench Pro 上推崇最佳的模子咫尺在 HuggingFace 上开源了！宽饶 GLM 5.1！」

环球第三，开源第一。固然没等来 DeepSeek V4，但开源新一哥照旧来了，依然是我们国产大模子。

说真话，我第一反馈是又来了，大模子的「榜单狂欢」，每次发布会王人是「史诗级进步」，各家模子在榜单上各领风数小时，此次的脚本有什么不同呢。

APPSO 看完 GLM-5.1 的期间细节和体验后，带你望望这个模子是什么水平

从 20 步到 1700 步，握续责任 8 小时

GLM-5.1 最让东说念主没思到的，不是跑分，是它能责任多久。

智谱有个一个案例让我印象相比深。8 小时从零构建 Linux 桌面系统。不是写几个 demo 文献那种「构建」，是确切从零启动，画架构、写代码、跑测试、修 bug，历时 8 小时整，施行了 1200 多步，终末产出了一套功能完善的 Linux 桌面系统。

包括完整的桌面、窗口处治器、景况栏、应用标准、VPN 处治器、中笔墨体扶直、游戏库，4.8MB 的配套文献。这十分于一个 4 东说念主团队一周的责任量。

全程莫得东说念主参与测试、审查代码。GLM-5.1 以至给我方的代码写了讲究测试，并且跑过了。

知乎标准员博主 Toyama nao 作念了个更狠的测试。他给 GLM-5.1 扔了三个工程样式：用 Swift 写 macOS 的 OpenGL 渲染器、用 Flutter 开辟全功能聊天软件同期用 Golang 开辟工作端、自选期间栈开辟纯网页端相频编著应用。每个样式跑 10-12 轮领导词，每轮 1500-2000 字。

效果 GLM-5.1 成为第一个通过他全部测试工程的国产模子，亦然第一个认真超越 Sonnet 4.5 Thinking 的国产模子。

他的评价是：「GLM-5.1 大幅推广了编程的适应限制，不再是前端 only 战神，也不仅仅 oneshot 形势货，是不错在复杂工况下充任编程主力。」但他也指出了问题：「超长高下文时容易幻觉爆炸，如若遭遇 2 轮改不好一个问题，不要抱有荣幸，奏凯重开。」

旧年年底，AI 智能体大致只可完成 20 个枢纽。GLM-5.1 咫尺不错完成 1700 个枢纽。这是模子能不行确切「孤苦责任」的分水岭。

智谱在期间阐发里解释了枢纽突破点：畴昔的模子，包括 GLM-5，会在早期快速获取收益后就插足瓶颈期。它们反复尝试已知的优化技能，但无法在一条路走欠亨时主动切换战略。

GLM-5.1 的考研看法即是突破这个瓶颈，让模子大约在一个固定战略内进行增量调优，当收益趋于停滞时，主动分析 Benchmark 日记、定位现时瓶颈，然后跳转到结构性不同的决策。

向量数据库优化案例即是典型的「道路型」优化轨迹。GLM-5.1 用了 655 次迭代，把查询迷糊从 3108 QPS 沿途推到 21472 QPS，leyu进步了 6.9 倍。

这个流程中，模子我方完成了从全库扫描切到 IVF 分桶调回、引入半精度压缩、加入量化粗排、作念两级路由，再到提前剪枝的整套优化链条。每一次超越王人伴跟着顷刻间的 Recall 下落，因为模子在探索新标的时会暂时冲突敛迹，随后再调回来。这个「冲突 - 建树」的轮回自身即是有用优化的鲜艳。

在 KernelBench Level 3 优化基准上，GLM-5.1 对 50 个确切机器学习诡计负载进行了超越 24 小时的不拒绝迭代，最终获取 3.6 倍的几何平均加快比，显贵高于 torch.compile max-autotune 模式的 1.49 倍。模子自主编写定制 Triton Kernel 和 CUDA Kernel，独揽 cuBLASLt epilogue 交融并实施 shared memory tiling 与 CUDA Graph 优化，隐秘了从高层算子交融到微架构级调优的完整期间栈。

还有一个更故兴致的测试：Vending Bench 2。这个基准条件模子模拟筹画一年的自动售货机业务，需要恒久盘算推算和资源处治。GLM-5.1 最终账户余额达到 $4，432，在开源模子中名次序一，接近 Claude Opus 4.5 的水平。

744B 参数，零英伟达芯片，资本裁减 97%

GLM-5.1 的期间规格值得细看：744B 参数的混杂大众模子（MoE），每个 token 激活 40B 参数，28.5T tokens 考研数据，集成了 DeepSeek Sparse Attention（DSA）来裁减部署资本同期保握长高下文本事。200K 高下文窗口，最大输出 131，072 tokens。

更枢纽的是，通盘这个词模子全部使用华为昇腾 910B 芯片考研，莫得英伟达 GPU 参与。在算力被卡脖子的情况下，国产模子依然能作念到环球第三、开源第一。

开辟者 Beau Johnson 把我方部署的 OpenClaw 背后的模子从 Claude Opus 4.6 切换到 GLM-5.1，体验上莫得任何分离，但资本从 1000 好意思元暴砍至 30 好意思元驾驭，裁减了 97%。GLM-5.1 的输入资本是 Claude Opus 的 1/5，输出资本是 1/8。肤浅来说：接近 Opus 的本事，20% 的价钱。

并且 GLM-5.1 是开源的。MIT License，最宽松的开源许可证之一。你不错拿去改，拿去商用，拿去作念任何事。扶直 vLLM、SGLang、xLLM 等主流推理框架，不错奏凯在土产货部署。

天然 GLM-5.1 也不是莫得进步的空间，部分开辟者反馈，GLM-5.1 的推理速率唯有 44.3 tokens/ 秒，在同类家具没太大上风。复杂任务以至要一小时起步，哪怕 Pro 套餐额度是 Claude 的 15 倍，也可能不太够用。

这些问题王人是确切存在的。GLM-5.1 不是好意思满的，但这不妨碍它成为一个里程碑。

GLM-5.1 的真理，不在于它比 Opus 4.6 强些许，而在于它解说了，在算力被卡脖子的情况下，国产模子依然能作念到开源第一。并且它是开源的，任何东说念主王人不错用，任何东说念主王人不错改。

你睡眠的 8 小时，咫尺不错是 AI 上班的 8 小时了。并且这个 AI ，是开源的，是国产的，是任何东说念主王人不错用的。

附体验气象

1. 官方 API 接入

- BigModel 怒放平台：https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1

- Z.ai：https://docs.z.ai/guides/llm/glm-5.1

2. 家具体验

- GLM-5.1 行将登陆 Z.ai：https://chat.z.ai

3. 开源汇聚

- GitHub：https://github.com/zai-org/GLM-5

- Hugging Face：https://huggingface.co/zai-org/GLM-5.1

- ModelScope：https://modelscope.cn/models/ZhipuAI/GLM-5.1leyu体育

华体会体育(HTHSports)官网入口

上一篇：乐鱼体育官网华夏地产：十大屋苑周末录9宗成交较上周减少3宗

下一篇：没有了

leyu体育 Claude Opus 4.6 一天之内被超越两次，此次来自国产模子

乐鱼滚球