Qwen2.5-MAX超越DeepSeek-V3，数学和…测了什么？

看 AI消息的实际效果、使用门槛和结果表现。

Qwen2.5-MAX超越DeepSeek-V3，数学和…适合谁看？

适合正在选工具、做本地部署或验证 AI 工作流的人。

Qwen2.5-MAX超越DeepSeek-V3，数学和…要注意什么？

重点看配置成本、失败点、数据边界和可替代方案。

Qwen2.5-MAX超越DeepSeek-V3，数学和编程登顶！

Q: Qwen2.5-MAX超越DeepSeek-V3，数学和…测了什么？

看 AI消息 的实际效果、使用门槛和结果表现。

今天AI圈又传来一个振奋人心的好消息，国产大模型Qwen2.5-Max在权威大模型榜单登顶！

1 榜单分析

Chatbot Arena更新了最新一期大模型榜单，不久前刚发布的Qwen2.5-Max在数学和编程领域排名第一，再次问鼎！再次捍卫了国产大模型的综合实力。

如下榜单图来自Chatbot Arena，我原封不动截图过来。Qwen2.5-Max综合排名第7名，DeepSeek-V3紧随其后排名第8：

Qwen2.5-Max

Chatbot Arena榜单说服力强不强？Chatbot Arena，在业界以测试方法严谨科学著称。他们采用匿名、两两组队的盲测方式，让用户根据真实对话体验对模型投票。此榜单是目前AI界公认的最具权威、最有说服力的榜单。因此，这让Qwen2.5-Max排名具有很强的说服力。看到这个榜单后，还是很为国产大模型自豪！

进一步再看Qwen2.5-Max与业界领先的其他大模型的得分对比，在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中，Qwen2.5-Max 表现超越 DeepSeek V3：

Qwen2.5-Max

难怪国外的网友也认为Qwen2.5-Max 很牛，它用了super cracked来形容，如下截图所示：

Qwen2.5-Max

榜单总结，Qwen2.5-Max数学和编程排名第一，高难度提示词排名第二，综合排名第七，DeepSeek紧随其后排名第八。

数学和编程能力很强的大模型，是最吸引人的，因为这些能力往往是我们平时日常工作需要的，因为只有这些能力强大了，才能更好地解决我们平时那些有挑战性的任务需求。换句话说，日常简单的任务我们自己就处理了，不需要大模型。

2 模型测试案例

在写这篇文章前，我也深度使用了最新的Qwen2.5-Max模型，接下来我来总结使用感受和测试结果。

访问入口：

https://chat.qwenlm.ai/

进去后，默认选择的就是Qwen2.5-Max，如下图所示：

Qwen2.5-Max

包括 Artifcats, Web 搜索，图片生成，视频生成：

Qwen2.5-Max

根据榜单，Qwen2.5-Max编程能力第一名。为了验证其代码生成能力，以一个桌面游戏叫它生成代码，看看它的@pass1成功率，也就是一次生成代码后，成功运行并满足需求的通过率。按照如下方式提问它：

Qwen2.5-Max

这是它回答的部分截图：

Qwen2.5-Max

配置好代码运行环境，复制所有代码到PyCharm中，如下PyCharm部分代码截图，然后运行代码：

Qwen2.5-Max

使用上下左右箭头，控制蛇的运动方向，测试下游戏过程,录制为GIF动画，限于公众号内GIF动画帧数限制，只能展示开始前5帧：

Qwen2.5-Max

根据键盘箭头控制蛇上下左右运动，可以正常运行，并且吃到红色色块（代表食物）后，蛇形长度加1，游戏逻辑实现没有问题。

这个游戏逻辑一次现场运行通过，还是挺棒的。**为什么这么说呢？**贪吃蛇的游戏逻辑还是有些复杂的，就连精简的Python写贪吃蛇，代码都得110多行。大家可以试试其他大模型，未必能做到@pass1，我之前试过多个大模型都不行，有的一运行就出错，有的游戏过程逻辑不正常。

3 俄罗斯方块

Qwen2.5-MAX除了直接生成代码外，还有直接生成Artifacts功能，可以直接运行生成的代码，得到代码作品，这就给很多不会搭建编程环境的朋友带来了很大的便利。

接下来进一步加大测试难度，让Qwen2.5-MAX生成一个俄罗斯方块游戏。

游戏逻辑包括：1）生成不同颜色、不同形状的色块 2）不同方块接触检测、单个色块与游戏边界检测 3）色块自动下落同时支持旋转调整方块形状 4）自动检测是否消行（判断行是否填满），若满足条件自动消除此行 5）若发生消行，其他关联方块自动更新位置，游戏结束状态判断等。所以，此游戏的业务逻辑明显更加复杂，对大模型提出更大的挑战。

叫Qwen2.5-MAX直接生成作品的操作步骤如下，第一输入提示词：俄罗斯方块游戏纯Html+JS实现代码，然后选择Artifacts，最后回车即可：

Qwen2.5-Max