Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!
你好, 我是郭震!
这周Claude Sonnet 5 发布,Fable 5 也开放。
Fable 5 目前占据全球所有榜单头名,编程王者。
GLM 5.2 目前国内编程领域老大
所以这篇文章,对比实测下三个模型。
1 先看榜单
这是vals.ai榜单,三大最权威榜单之一。
榜单显示 Fable 5 第一,最新发布的 Sonnet 5 第三,GLM 5.2 第六:

前十榜单中,国产模型还有 MiniMax-M3,Qwen 3.7 Max,这些模型之前文章都有测试过,感兴趣的可以回看。
这个榜单测试了大模型的如下能力:

总结过来就是:它想测的不是模型嘴皮子有多厉害,而是模型到底能不能在金融和代码这些真实生产力场景里干活。
为什么要实测?
因为榜单像考试,只能说明模型会不会做题。但真实工作流更像做项目,很容易出现“高分低能”:分数好看,实际不好用。
模型到底能不能干活,还是要放进真实任务里跑一遍。
这就是实测的价值:不照着榜单复读,而是直接上真实任务,看看它到底能不能干活。
2 测试方法
为了尽量公平,我这次只做一件事:把同一个真实任务,分别交给 Fable 5、Claude Sonnet 5 和 GLM 5.2 来完成。
提示词一样,输入材料一样,评判标准也一样。
最后,我会把三个模型交付的结果丢给 Codex,当第三方裁判,从完成度、可用性、代码质量、细节处理这几个维度打分。
也会记录每个模型完成任务消耗的 token,再换算成大概成本。
接下来,就是确定测试任务。
这次我选了一个更接近真实工作流的任务:基于 BLS 行业薪资公开数据,做一个单文件网页分析工具。
这份数据是一个有一定规模的真实数据集。这次用的数据有 17 万多行:

这种量级任务 很适合看模型到底是不是在认真干活。
具体任务为:
开发一个完整可运行的单文件 HTML 网页,用来分析用户上传的数据。1. 支持上传 CSV/XLSX 文件,使用 SheetJS 解析 Excel。2. 自动统计行业数量、职业数量、总就业人数、平均年薪、中位数年薪、最高薪行业、最高薪职业。3. 使用 ECharts 生成 4 个图表:行业薪资排行、职业薪资分布、就业人数与薪资关系散点图、行业岗位数量排行。4. 支持按行业、职业关键词、薪资区间筛选数据。5. 自动生成一段中文分析结论,说明哪些行业薪资高、哪些岗位就业规模大、哪些职业可能是高薪小众岗位。只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。
为了避免手动操作带来的误差,这次我没有一个个复制粘贴到网页里测试,而是直接写了一个脚本批量调用。
三个模型使用同一段提示词,同一个测试任务,只替换模型 ID。
models = {
"Fable 5": "anthropic/claude-fable-5",
"Claude Sonnet 5": "anthropic/claude-sonnet-5",
"GLM 5.2": "z-ai/glm-5.2",
}
这样跑完以后,每个模型都会生成一个独立的 HTML 文件,并返回模型的token成本:
3 测试对比
把三个 HTML 页面分别打开,上传同一份 17 万行的 BLS 行业薪资数据,看它们能不能正常解析、统计和画图。
大概11分钟,三个模型全部计算完。
先看成本统计:

同样完成一个任务,Fable 5 和 Claude Sonnet 5 都要 3 元,GLM 5.2 成本最低,只花了约 0.51 元,相当于成本只有前两者的 1/6 左右。
下面是Claude Fable 5 导入17万行Excel后,数据概览:

Claude Fable 5 数据可视化:

Claude Sonnet 5 数据概览部分截图:

Claude Sonnet 5 柱状图,散点图:


GLM-5.2 数据概览:

GLM-5.2 数据可视化:


4 裁判打分
发给裁判 Codex 打分,思考2分18秒后,它打分如下:

这个结果相当出乎我的意料。我再让它打一遍分数:

打分结果:

Codex给出最终结论如下:

最后总结一下
这次最意外的是,榜单第一的 Fable 5 并没有明显领先,反而是 GLM 5.2 在页面完成度、可视化效果和成本上更有优势。
Fable 5 排行榜第一,说明它在标准化测试里很强;但这次任务不只是写代码,还要把真实数据做成一个可用产品。它代码能力在线,但没有把“行业薪资分析”这个业务目标吃透。
至于 Fable 5 到底是名气大于实力,还是确实有足够强的综合能力,可能还需要更多真实任务、更多用户场景去验证。至少在我这次测试里,它没有跑出榜单第一该有的压制力。
常见问题
Claude Fable 5,Sonnet 5,GLM …测了什么?
看 AI消息 的实际效果、使用门槛和结果表现。
Claude Fable 5,Sonnet 5,GLM …适合谁看?
适合正在选工具、做本地部署或验证 AI 工作流的人。
Claude Fable 5,Sonnet 5,GLM …要注意什么?
重点看配置成本、失败点、数据边界和可替代方案。
分享文章
转发到常用平台
微信/朋友圈可先复制链接
相关内容