郭震 AI公众号:郭震AI

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

📅发表日期: 2026-05-31

🏷️分类: AI消息

👁️阅读次数: 0

你好,我是郭震!

最近 Qwen3.7-Max,Claude Opus 4.8,两个模型发布,

Claude Opus 4.8,第一,

Qwen3.7-Max,第二,前面只有 Opus 4.8,

到底实际生产表现如何,这两天实测了下,感兴趣的可以看下。

1 新模型介绍

这是** Code Arena WebDev 榜单,Opus 4.8,3.7-Max前两名:**

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

这个榜单专门评测 AI 模型在页面实现、复杂交互、多步骤编码、工具调用等。

值得一提,智谱,Kimi,小米,DeepSeek,MiniMax都在榜单中,看到了国产大模型的崛起。

这个榜单比较有参考意义,因为接近真实开发场景。

接下来直接开始测评

2 对比实测

测评思路:使用一个典型的中小型Agent任务,测评大家普遍关心的智能体能力。

然后选择Gemini-3.5-Flash和GPT-5.5为裁判,根据两个裁判的打分,给出客观的结果评估。

Agent任务,提示词如下:

开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。 支持上传 .xlsx/.xls,使用 SheetJS 解析 Excel,读取多 Sheet,并展示可搜索、分页、横向滚动的数据表格。 自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和,并生成中文数据分析报告。 使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化,并支持用户选择 X/Y 字段和图表类型自定义生成。 只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。

先发给Qwen3.7-Max:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

保存为html文件,并打开:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

导入一个Excel文件,自动分页展示:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

下面是数据统计预览:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

生成的图表:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

部分数据报告:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

同样任务发给 Opus 4.8,打开html文件:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

数据预览:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

数据概览:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

柱状图:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

折线图:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

饼图:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

同样任务发给:DeepSeek-V4-Pro,如下图所示:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

双击打开html,显示如下:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

加载Excel后,数据预览,字段类型,统计:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

柱状图:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

折线图:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

饼图:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

** 3 裁判打分**

为了更加客观,交给裁判Gemini-3.5-flash模型,评估如下图所示:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

这是Gemini-3.5-Flash使用的三个打分维度:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

最终打分:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

Claude Opus 4.8,竟然得分只有6.8,位于最后一名,

而Qwen3.7-Max排到第一,得分高达9.44分,

让我相当意外,因为按照文章开头的排名,Opus 4.8应该是第一才对, 结果竟然没有Deep-V4-Pro得分高。

这是为什么?再让裁判点评下:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

DeepSeek 方案采用了优秀的左右分栏布局,整体交互与视觉体验流畅,但在自动生成的中文数据分析报告深度上显得有些单薄。

Claude 方案:提供了实用的图表数据聚合功能,但遗憾地缺失了表格搜索与分页交互,且未能生成文本形式的分析报告。

** Qwen 方案**:在数据分析深度上表现优秀,能够自动生成结构详尽的中文报告与多维度关联图表,不过在垂直布局的紧凑性上仍有提升空间。

原来Claude缺失了很多项内容,完成度很差。

这太让人意外了,是不是裁判有问题,再请GPT-5.5当裁判:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

排名,依然没变,还是Qwen3.7-Max第一,DeepSeek第二,Claude Opus 4.8第三

以下是GPT-5.5给出的具体解释:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

至此,可以下结论:就这个Agent任务,Opus 4.8确实表现很拉

总结一下

模型好不好,不能只看排名,更不能只看名气,而是要看它在实际生产中的表现。

本文实测的任务,GPT-5.5也明确这是一个比较典型的中小型Agent任务:

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

就本次中小型Agent任务,Qwen3.7-Max第一,DeepSeek-V4-Pro第二,Claude Opus 4.8第三。

这还是比较出乎我的意料!虽然只是一个测试,但也有一定代表性,再复杂的Agent任务测试,我后面尝试再验证下。

全文1368字,29图,如果你觉得这篇文章对你有帮助,也欢迎给我一个三连击:点赞、转发和在看;如果可以,再帮我点一个⭐️。谢谢你看到这里,我们下篇再见。

💬 评论

暂无评论

🧠AI 最新技术 (滚动鼠标查看)