郭震 AI公众号:郭震AI

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

发布日期:

分类: AI消息

预计阅读: 4 分钟

阅读次数: 0

预计阅读4 分钟
结构重点5 个
图文要点0 张
正文规模1.7k 字

你好,我是郭震!

最近GLM-5.2,Kimi 2.7 Code,两个新模型发布,

与当前最强模型Claude Opus 4.8,

对比实测下,感兴趣的可以看下。

1 新模型介绍

GLM5.2,在以下两个数据集,都仅次于 Opus 4.8:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

** FrontierSWE,这个数据集最有意思,**

** 它主要看模型能不能在真实代码工程里完成非常难、开放式、长时间的技术任务,**

** 很多任务需要跑** 20 小时,****

**** 所以它真实考察了模型长程任务处理能力,这也是我最喜欢的,因为开发软件就是需要这样的能力强。****

**** Kimi 2.7 Code,也在最新发布,它同样把考察长程任务作为第一优先级,就是左一柱状图:****

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

**** 看到它同样接近Opus 4.8 xhigh模式****

模型胜任长程任务、开发复杂项目,看来都是大模型迭代的方向。

接下来咱们就重点测试它们三个处理相对复杂任务能力,到底实际使用表现如何。

接下来直接开始测评

2 对比实测

测评思路:使用一个典型的中小型Agent任务,测评大家普遍关心的智能体能力。

然后选择Gemini-3.1-Pro为裁判,根据裁判的打分,给出客观的结果评估。

Agent任务,提示词如下:

开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。支持上传 .xlsx/.xls,使用 SheetJS 解析 Excel,读取多 Sheet,并展示可搜索、分页、横向滚动的数据表格。自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和,并生成中文数据分析报告。使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化,并支持用户选择 X/Y 字段和图表类型自定义生成。只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。

先发给GLM-5.2:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

保存为html文件,并打开:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

导入一个Excel文件,自动分页展示:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

下面是数据统计预览:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

生成的部分图表:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

同样任务发给 Opus 4.8,打开html文件:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

数据预览:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

图表:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

同样任务发给:Kimi 2.7 Code

但是Kimi官方,无最新这个模型:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

我选择通过API调用它:

from openai import OpenAI
import os
import re

client = OpenAI(
    api_key=os.environ["MOONSHOT_API_KEY"],
    base_url="https://api.moonshot.ai/v1",
)

prompt = """
开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。

支持上传 .xlsx/.xls,使用 SheetJS 解析 Excel,读取多 Sheet,并展示可搜索、分页、横向滚动的数据表格。

自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和,并生成中文数据分析报告。

使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化,并支持用户选择 X/Y 字段和图表类型自定义生成。

只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。
"""

completion = client.chat.completions.create(
    model="kimi-k2.7-code",
    temperature=1,
    max_tokens=30000,
    messages=[
        {
            "role": "system",
            "content": "你是资深前端工程师。严格遵守用户要求:只输出完整 HTML 源码,不输出解释、Markdown 或代码围栏。",
        },
        {
            "role": "user",
            "content": prompt,
        },
    ],
)

html = completion.choices[0].message.content.strip()

html = re.sub(r"^```html\s*", "", html)
html = re.sub(r"^```\s*", "", html)
html = re.sub(r"\s*```$", "", html)
html = html.strip()

with open("kimi-excel-analysis-visualizer.html", "w", encoding="utf-8") as f:
    f.write(html)

print("已保存到 kimi-excel-analysis-visualizer.html")

双击打开html,显示如下:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

加载Excel后,数据预览,字段类型,统计:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

可视化图:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

3 裁判打分

为了更加客观,交给裁判Gemini-3.1-Pro模型,评估如下图所示:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

这是Gemini-3.1-Pro使用的三个打分维度:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

最终打分:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

Claude Opus 4.8,竟然得分只有45,位于最后一名,

让我相当意外,因为按照文章开头的排名,Opus 4.8应该是第一才对!

这是为什么?再让裁判点评下:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

结论如下:

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

Opus 4.8 失败的根本原因在于出现了** 严重的指令遗漏**,它完全忽略了搜索、分页、中文分析报告和自动图表推荐等核心要求,仅交付了一个功能残缺的基础半成品。

最新GLM-5.2,Kimi 2.7,Claude Opus 4.8 对比实测,结果离谱!

总结一下

在开发复杂单文件Excel数据分析应用的实测中,GLM-5.2 与 Kimi 2.7 Code 表现惊艳,双双逆袭超越了跑分公认霸主 Claude Opus 4.8

这一“离谱”反转的根源在于,本应最强的 Opus 4.8 触发了大模型的“代码惰性”,因注意力衰减严重遗漏了搜索、分页和分析报告等核心指令,最终垫底。

此次评测深刻证明,在处理真实的长程工程任务时,模型对复杂长提示词的“指令服从度”和“抗偷懒能力”,远比单纯的理论跑分更加关键。

全文1718字,29图,如果你觉得这篇文章对你有帮助,也欢迎给我一个三连击:点赞、转发和在看;如果可以,再帮我点一个⭐️。谢谢你看到这里,我们下篇再见。

分享文章

转发到常用平台

微信/朋友圈可先复制链接

相关内容

更多相关文章

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...