Jupyter AI

Qwen2.5-MAX超越DeepSeek-V3,数学和编程登顶!

📅发表日期: 2025-02-05

🏷️分类: AI消息

👁️阅读次数: 0

今天AI圈又传来一个振奋人心的好消息,国产大模型Qwen2.5-Max在权威大模型榜单登顶!

1 榜单分析

Chatbot Arena更新了最新一期大模型榜单,不久前刚发布的Qwen2.5-Max在数学和编程领域排名第一,再次问鼎!再次捍卫了国产大模型的综合实力。

如下榜单图来自Chatbot Arena,我原封不动截图过来。Qwen2.5-Max综合排名第7名,DeepSeek-V3紧随其后排名第8:

Qwen2.5-Max

Chatbot Arena榜单说服力强不强?Chatbot Arena,在业界以测试方法严谨科学著称。他们采用匿名、两两组队的盲测方式,让用户根据真实对话体验对模型投票。此榜单是目前AI界公认的最具权威、最有说服力的榜单。因此,这让Qwen2.5-Max排名具有很强的说服力。看到这个榜单后,还是很为国产大模型自豪!

进一步再看Qwen2.5-Max与业界领先的其他大模型的得分对比,在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 表现超越 DeepSeek V3:

Qwen2.5-Max

难怪国外的网友也认为Qwen2.5-Max 很牛,它用了super cracked来形容,如下截图所示:

Qwen2.5-Max

榜单总结,Qwen2.5-Max数学和编程排名第一,高难度提示词排名第二,综合排名第七,DeepSeek紧随其后排名第八。

数学和编程能力很强的大模型,是最吸引人的,因为这些能力往往是我们平时日常工作需要的,因为只有这些能力强大了,才能更好地解决我们平时那些有挑战性的任务需求。换句话说,日常简单的任务我们自己就处理了,不需要大模型。

2 模型测试案例

在写这篇文章前,我也深度使用了最新的Qwen2.5-Max模型,接下来我来总结使用感受和测试结果。

访问入口:

https://chat.qwenlm.ai/

进去后,默认选择的就是Qwen2.5-Max,如下图所示:

Qwen2.5-Max

包括 Artifcats, Web 搜索,图片生成,视频生成:

Qwen2.5-Max

根据榜单,Qwen2.5-Max编程能力第一名。为了验证其代码生成能力,以一个桌面游戏叫它生成代码,看看它的@pass1成功率,也就是一次生成代码后,成功运行并满足需求的通过率。按照如下方式提问它:

Qwen2.5-Max

这是它回答的部分截图:

Qwen2.5-Max

配置好代码运行环境,复制所有代码到PyCharm中,如下PyCharm部分代码截图,然后运行代码:

Qwen2.5-Max

使用上下左右箭头,控制蛇的运动方向,测试下游戏过程,录制为GIF动画,限于公众号内GIF动画帧数限制,只能展示开始前5帧:

Qwen2.5-Max

根据键盘箭头控制蛇上下左右运动,可以正常运行,并且吃到红色色块(代表食物)后,蛇形长度加1,游戏逻辑实现没有问题。

这个游戏逻辑一次现场运行通过,还是挺棒的。**为什么这么说呢?**贪吃蛇的游戏逻辑还是有些复杂的,就连精简的Python写贪吃蛇,代码都得110多行。大家可以试试其他大模型,未必能做到@pass1,我之前试过多个大模型都不行,有的一运行就出错,有的游戏过程逻辑不正常。

3 俄罗斯方块

Qwen2.5-MAX除了直接生成代码外,还有直接生成Artifacts功能,可以直接运行生成的代码,得到代码作品,这就给很多不会搭建编程环境的朋友带来了很大的便利。

接下来进一步加大测试难度,让Qwen2.5-MAX生成一个俄罗斯方块游戏。

游戏逻辑包括:1)生成不同颜色、不同形状的色块 2)不同方块接触检测、单个色块与游戏边界检测 3)色块自动下落同时支持旋转调整方块形状 4)自动检测是否消行(判断行是否填满),若满足条件自动消除此行 5)若发生消行,其他关联方块自动更新位置,游戏结束状态判断等。所以,此游戏的业务逻辑明显更加复杂,对大模型提出更大的挑战。

叫Qwen2.5-MAX直接生成作品的操作步骤如下,第一输入提示词:俄罗斯方块游戏 纯Html+JS实现代码,然后选择Artifacts,最后回车即可:

Qwen2.5-Max

如下图所示,左侧是代码,右侧是直接运行出来的作品,使用左右箭头控制方块下落位置:

Qwen2.5-Max

但是我不知道怎么调整方块的形状,直接提问它后知道使用Q或W键调整:

Qwen2.5-Max

第一次试玩过程中出现方块消行失败问题,可以理解,这个游戏逻辑相对复杂,一次性通过难度不小,所以给它容错的机会 ,反馈这个问题:

Qwen2.5-Max

然后再运行后问题得以修复,如下所示录制了GIF动画,限于公众号帧数限制,展示其中几帧,看到通过调整方块形状能够在出现满行时,自动消行:

Qwen2.5-Max

再检测下游戏其他逻辑,比如判断游戏终止逻辑,等碰到竞技场的上边界后游戏结束,并自动开始新的一轮游戏:

Qwen2.5-Max

Qwen2.5-Max 同时生成游戏代码和对应的可在线运行作品,所见即所得,省去搭建编程环境的那些繁琐步骤,让编程门槛进一步降低。

以上贪吃蛇游戏,俄罗斯方块游戏,一共2个代码文件,全部完整分享给大家,想要获取的在下方我的公众号回复:qwen

郭震AI

更多有意思的比如生成一个鼠标跟随粒子特效,具体提示词如下所示,然后发送给Qwen2.5-Max:

Qwen2.5-Max

一次生成作品,效果如下所示,大家看看还是很有意思,每次鼠标一移动就自动生成这种炫酷的粒子特效:

Qwen2.5-Max

更多其他有意思的编程作品生成,大家可以自行去尝试,限于篇幅,本文就介绍这三个测试案例。

最后总结

Qwen2.5-Max 在 Chatbot Arena 榜单中表现出色,数学和编程能力排名第一。

本文测试了其代码生成能力,结果表明编程能力表现出色;即便难度较大的俄罗斯方块,它也能轻松生成并直接输出可在线试玩的作品。

以上的测评均在QwenChat上免费测评体验,感兴趣的可以自行前往:chat.qwenlm.ai

Qwen和DeepSeek作为国产双子星,他们的突破进一步巩固了国产大模型在国内外AI业界的地位。未来更加让人值得期待!

💬 评论

暂无评论

🧠AI 最新技术 (滚动鼠标查看)