郭震 AI公众号:郭震AI

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

📅发表日期: 2026-04-26

🏷️分类: AI消息

👁️阅读次数: 0

你好,我是郭震!

DeepSeek-V4 正式发布,这篇文章是我的实测笔记,感兴趣的可以看下。

我的测试思路:测试V4其中最重要的两大升级维度:1M上下文处理能力,Agent能力。同样问题提问V4,GLM-5.1和最新GPT 5.5,选择Gemini 3.1 Pro为裁判,然后把各自答案输入给裁判,并从三个最重要评估维度给出打分及最终结论。

限于篇幅和时间,主要测试两大升级维度,测试结论只供参考。

1 DeepSeek-V4

按照官方介绍,这次 DeepSeek-V4 分成两个版本,一个是 DeepSeek-V4-Pro,主打更强的推理、代码和 Agent 能力;另一个是DeepSeek-V4-Flash,主打更快、更经济,适合日常问答和轻量任务:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

V4推理性能比肩顶级开源模型,DeepSeek官方给出的评估表格中还有GLM-5.1,K2.6这两大国产大模型:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

2 1M上下文对比测试

第一个实测,我把一本400页+的,邱老师编写的神经网络这本书丢给 DeepSeek-V4:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

如下提问,以下是回复首屏:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

回复最后截图:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

同样问题,提问GLM-5.1,如下:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

回复最后截图:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

同样问题,提问GPT最新5.5,回复首屏:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

回复最后截图:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

然后我把DeepSeek-V4,GLM-5.1和GPT 5.5的回复全部发送给Gemini 3.1 Pro,从三个角度评价,哪个模型胜出:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

这是Gemini 3.1 Pro给出的答案:第一名,GPT 5.5 ;第二名,GLM-5.1;第三名,DeepSeek-V4:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

3 Agent能力对比测试一

第二个实测,我主要看 DeepSeek-V4 ,GLM-5.1和 GPT 5.5 的 Agent 能力。

开发本地网页工具,用户可以上传 txt 文件,然后自动统计字数、段落数、关键词,并生成一段摘要,页面还要支持复制摘要,最好可以直接在浏览器打开运行

我的提示词是:

请你帮我做一个本地网页工具,功能如下:
1. 用户可以上传一个 txt 文件;
2. 自动统计字数、段落数、关键词;
3. 自动生成一段摘要;
4. 页面支持复制摘要;
5. 页面要简洁好看,可以直接在浏览器打开运行。请你给出完整代码、文件结构和运行方法。

这个任务不算特别复杂,但它比单纯写一个函数更接近真实需求。因为它需要同时考虑页面、交互、文件读取、文本分析、复制按钮和运行方式。

如下先提问V4:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

V4 生成结果如下所示,右侧可以直接操作:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

同样提示词发给 GLM 5.1,生成结果如下:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

GPT 5.5 生成结果如下所示:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

我还是把三个网页直接发给Gemini 3.1 Pro,让它从三个最重要角度评价Agent能力,如下是结果:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

关于Agent能力第一个测试用例,Gemini 3.1 Pro给出答案:第一名,DeepSeek-V4 ;第二名,GLM-5.1;第三名:GPT 5.5

4 Agent能力对比测试二 同样思路,这次测试侧重:交互应用能力 + 状态管理能力,例子如下所示:

请开发本地“英语单词复习卡片”网页工具,可以直接双击 index.html 运行。用户可以添加单词、释义和例句,支持随机抽卡、标记掌握/未掌握,并自动统计学习进度。

DeepSeek-V4,结果如下:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

GLM-5.1,结果如下:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

GPT-5.5,结果如下:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

把以上三个html发给Gemini-3.1-pro中评判下:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

关于Agent能力第二个测试用例,Gemini 3.1 Pro给出答案:第一名,

GLM-5.1;第二名,DeepSeek-V4;第三名:GPT 5.5

最后总结一下

本篇实测从两个最重要的大模型评估维度:上下文处理能力,Agent能力

使用Gemini 3.1 Pro当裁判,篇幅关系,每个维度采取一局定胜负。

Gemini 3.1 Pro报告显示:

1)上下文处理能力,GPT 5.5 第一,GLM-5.1 第二, DeepSeek-V4 第三;

2)Agent能力,DeepSeek-V4 和GLM-5.1各有一次第一,GPT 5.5两次都是第三。

根据以上测试,多少还是出乎我的意料,本以为GPT-5.5的Agent能力很猛,但V4和GLM-5.1都超越它了。

DeepSeek-V4是开源的,而GPT 5.5还闭源,能够比肩顶级闭源模型:

实测DeepSeek-V4,GLM-5.1,GPT-5.5谁更强?结果出人意料!

已经非常让人尊重!

正如DeepSeek团队所说:不诱于誉,不恐于诽,面对赞赏和诽谤,还能泰然自若,做到这点不易。

全文1712字,23图,如果你觉得这篇文章对你有帮助,也欢迎给我一个三连击:点赞、转发和在看;如果可以,再帮我点一个⭐️。谢谢你看到这里,我们下篇再见。

💬 评论

暂无评论

🧠AI 最新技术 (滚动鼠标查看)