Claude Fable 5，Sonnet 5，GLM …测了什么？

看 AI消息的实际效果、使用门槛和结果表现。

Claude Fable 5，Sonnet 5，GLM …适合谁看？

适合正在选工具、做本地部署或验证 AI 工作流的人。

Claude Fable 5，Sonnet 5，GLM …要注意什么？

重点看配置成本、失败点、数据边界和可替代方案。

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

Q: Claude Fable 5，Sonnet 5，GLM …测了什么？

看 AI消息 的实际效果、使用门槛和结果表现。

你好，我是郭震！

这周Claude Sonnet 5 发布，Fable 5 也开放。

Fable 5 目前占据全球所有榜单头名，编程王者。

GLM 5.2 目前国内编程领域老大

所以这篇文章，对比实测下三个模型。

1 先看榜单

这是vals.ai榜单，三大最权威榜单之一。

榜单显示 Fable 5 第一，最新发布的 Sonnet 5 第三，GLM 5.2 第六：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

前十榜单中，国产模型还有 MiniMax-M3，Qwen 3.7 Max，这些模型之前文章都有测试过，感兴趣的可以回看。

这个榜单测试了大模型的如下能力：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

总结过来就是：它想测的不是模型嘴皮子有多厉害，而是模型到底能不能在金融和代码这些真实生产力场景里干活。

为什么要实测？

因为榜单像考试，只能说明模型会不会做题。但真实工作流更像做项目，很容易出现“高分低能”：分数好看，实际不好用。

模型到底能不能干活，还是要放进真实任务里跑一遍。

这就是实测的价值：不照着榜单复读，而是直接上真实任务，看看它到底能不能干活。

2 测试方法

为了尽量公平，我这次只做一件事：把同一个真实任务，分别交给 Fable 5、Claude Sonnet 5 和 GLM 5.2 来完成。

提示词一样，输入材料一样，评判标准也一样。

最后，我会把三个模型交付的结果丢给 Codex，当第三方裁判，从完成度、可用性、代码质量、细节处理这几个维度打分。

也会记录每个模型完成任务消耗的 token，再换算成大概成本。

接下来，就是确定测试任务。

这次我选了一个更接近真实工作流的任务：基于 BLS 行业薪资公开数据，做一个单文件网页分析工具。

这份数据是一个有一定规模的真实数据集。这次用的数据有 17 万多行：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

这种量级任务很适合看模型到底是不是在认真干活。

具体任务为：

开发一个完整可运行的单文件 HTML 网页，用来分析用户上传的数据。1. 支持上传 CSV/XLSX 文件，使用 SheetJS 解析 Excel。2. 自动统计行业数量、职业数量、总就业人数、平均年薪、中位数年薪、最高薪行业、最高薪职业。3. 使用 ECharts 生成 4 个图表：行业薪资排行、职业薪资分布、就业人数与薪资关系散点图、行业岗位数量排行。4. 支持按行业、职业关键词、薪资区间筛选数据。5. 自动生成一段中文分析结论，说明哪些行业薪资高、哪些岗位就业规模大、哪些职业可能是高薪小众岗位。只输出完整可运行的单文件 HTML 代码，不要解释，不要 Markdown，不依赖后端。

为了避免手动操作带来的误差，这次我没有一个个复制粘贴到网页里测试，而是直接写了一个脚本批量调用。

三个模型使用同一段提示词，同一个测试任务，只替换模型 ID。

models = {
    "Fable 5": "anthropic/claude-fable-5",
    "Claude Sonnet 5": "anthropic/claude-sonnet-5",
    "GLM 5.2": "z-ai/glm-5.2",
}

这样跑完以后，每个模型都会生成一个独立的 HTML 文件，并返回模型的token成本：

3 测试对比

把三个 HTML 页面分别打开，上传同一份 17 万行的 BLS 行业薪资数据，看它们能不能正常解析、统计和画图。

大概11分钟，三个模型全部计算完。

先看成本统计：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

同样完成一个任务，Fable 5 和 Claude Sonnet 5 都要 3 元，GLM 5.2 成本最低，只花了约 0.51 元，相当于成本只有前两者的 1/6 左右。

下面是Claude Fable 5 导入17万行Excel后，数据概览：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

Claude Fable 5 数据可视化：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

Claude Sonnet 5 数据概览部分截图：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

Claude Sonnet 5 柱状图，散点图：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

GLM-5.2 数据概览：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

GLM-5.2 数据可视化：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

4 裁判打分

发给裁判 Codex 打分，思考2分18秒后，它打分如下：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

这个结果相当出乎我的意料。我再让它打一遍分数：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

打分结果：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

Codex给出最终结论如下：

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

最后总结一下

这次最意外的是，榜单第一的 Fable 5 并没有明显领先，反而是 GLM 5.2 在页面完成度、可视化效果和成本上更有优势。

Fable 5 排行榜第一，说明它在标准化测试里很强；但这次任务不只是写代码，还要把真实数据做成一个可用产品。它代码能力在线，但没有把“行业薪资分析”这个业务目标吃透。

至于 Fable 5 到底是名气大于实力，还是确实有足够强的综合能力，可能还需要更多真实任务、更多用户场景去验证。至少在我这次测试里，它没有跑出榜单第一该有的压制力。

Claude Fable 5，Sonnet 5，GLM 5.2 对比实测，结果让人意外！

1 先看榜单

2 测试方法

3 测试对比

4 裁判打分

最后总结一下

常见问题

更多相关文章

读者留言

留言列表