郭震 AI公众号:郭震AI

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

发布日期:

分类: AI消息

预计阅读: 4 分钟

阅读: --

你好, 我是郭震!

这周Claude Sonnet 5 发布,Fable 5 也开放。

Fable 5 目前占据全球所有榜单头名,编程王者。

GLM 5.2 目前国内编程领域老大

所以这篇文章,对比实测下三个模型。

1 先看榜单

这是vals.ai榜单,三大最权威榜单之一。

榜单显示 Fable 5 第一,最新发布的 Sonnet 5 第三,GLM 5.2 第六:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

前十榜单中,国产模型还有 MiniMax-M3,Qwen 3.7 Max,这些模型之前文章都有测试过,感兴趣的可以回看。

这个榜单测试了大模型的如下能力:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

总结过来就是:它想测的不是模型嘴皮子有多厉害,而是模型到底能不能在金融和代码这些真实生产力场景里干活。

为什么要实测?

因为榜单像考试,只能说明模型会不会做题。但真实工作流更像做项目,很容易出现“高分低能”:分数好看,实际不好用。

模型到底能不能干活,还是要放进真实任务里跑一遍。

这就是实测的价值:不照着榜单复读,而是直接上真实任务,看看它到底能不能干活。

2 测试方法

为了尽量公平,我这次只做一件事:把同一个真实任务,分别交给 Fable 5、Claude Sonnet 5 和 GLM 5.2 来完成。

提示词一样,输入材料一样,评判标准也一样。

最后,我会把三个模型交付的结果丢给 Codex,当第三方裁判,从完成度、可用性、代码质量、细节处理这几个维度打分。

也会记录每个模型完成任务消耗的 token,再换算成大概成本。

接下来,就是确定测试任务。

这次我选了一个更接近真实工作流的任务:基于 BLS 行业薪资公开数据,做一个单文件网页分析工具。

这份数据是一个有一定规模的真实数据集。这次用的数据有 17 万多行:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

这种量级任务 很适合看模型到底是不是在认真干活。

具体任务为:

开发一个完整可运行的单文件 HTML 网页,用来分析用户上传的数据。1. 支持上传 CSV/XLSX 文件,使用 SheetJS 解析 Excel。2. 自动统计行业数量、职业数量、总就业人数、平均年薪、中位数年薪、最高薪行业、最高薪职业。3. 使用 ECharts 生成 4 个图表:行业薪资排行、职业薪资分布、就业人数与薪资关系散点图、行业岗位数量排行。4. 支持按行业、职业关键词、薪资区间筛选数据。5. 自动生成一段中文分析结论,说明哪些行业薪资高、哪些岗位就业规模大、哪些职业可能是高薪小众岗位。只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。

为了避免手动操作带来的误差,这次我没有一个个复制粘贴到网页里测试,而是直接写了一个脚本批量调用。

三个模型使用同一段提示词,同一个测试任务,只替换模型 ID。

models = {
    "Fable 5": "anthropic/claude-fable-5",
    "Claude Sonnet 5": "anthropic/claude-sonnet-5",
    "GLM 5.2": "z-ai/glm-5.2",
}

这样跑完以后,每个模型都会生成一个独立的 HTML 文件,并返回模型的token成本:

3 测试对比

把三个 HTML 页面分别打开,上传同一份 17 万行的 BLS 行业薪资数据,看它们能不能正常解析、统计和画图。

大概11分钟,三个模型全部计算完。

先看成本统计:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

同样完成一个任务,Fable 5 和 Claude Sonnet 5 都要 3 元,GLM 5.2 成本最低,只花了约 0.51 元,相当于成本只有前两者的 1/6 左右。

下面是Claude Fable 5 导入17万行Excel后,数据概览:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

Claude Fable 5 数据可视化:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

Claude Sonnet 5 数据概览部分截图:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

Claude Sonnet 5 柱状图,散点图:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

GLM-5.2 数据概览:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

GLM-5.2 数据可视化:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

4 裁判打分

发给裁判 Codex 打分,思考2分18秒后,它打分如下:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

这个结果相当出乎我的意料。我再让它打一遍分数:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

打分结果:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

Codex给出最终结论如下:

Claude Fable 5,Sonnet 5,GLM 5.2 对比实测,结果让人意外!

最后总结一下

这次最意外的是,榜单第一的 Fable 5 并没有明显领先,反而是 GLM 5.2 在页面完成度、可视化效果和成本上更有优势。

Fable 5 排行榜第一,说明它在标准化测试里很强;但这次任务不只是写代码,还要把真实数据做成一个可用产品。它代码能力在线,但没有把“行业薪资分析”这个业务目标吃透。

至于 Fable 5 到底是名气大于实力,还是确实有足够强的综合能力,可能还需要更多真实任务、更多用户场景去验证。至少在我这次测试里,它没有跑出榜单第一该有的压制力。

常见问题

Claude Fable 5,Sonnet 5,GLM …测了什么?

看 AI消息 的实际效果、使用门槛和结果表现。

Claude Fable 5,Sonnet 5,GLM …适合谁看?

适合正在选工具、做本地部署或验证 AI 工作流的人。

Claude Fable 5,Sonnet 5,GLM …要注意什么?

重点看配置成本、失败点、数据边界和可替代方案。

分享文章

转发到常用平台

微信/朋友圈可先复制链接

相关内容

更多相关文章

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...