彻底爆了！阿里最新Qwen大模型，再次拿下第一！测了什么？

看 AI消息的实际效果、使用门槛和结果表现。

彻底爆了！阿里最新Qwen大模型，再次拿下第一！适合谁看？

适合正在选工具、做本地部署或验证 AI 工作流的人。

彻底爆了！阿里最新Qwen大模型，再次拿下第一！要注意什么？

重点看配置成本、失败点、数据边界和可替代方案。

彻底爆了！阿里最新Qwen大模型，再次拿下第一！

Q: 彻底爆了！阿里最新Qwen大模型，再次拿下第一！测了什么？

看 AI消息 的实际效果、使用门槛和结果表现。

你好，我是郭震！

很多读者平时都会使用各种大模型来帮自己写代码、处理工作文档，但大家心里经常会有一个疑问：现在到底哪个大模型最聪明？国产大模型和海外顶尖模型相比，到底在什么水平？

今天这篇文章，来看一组刚刚出炉的客观数据。这两天，马斯克发文感叹：“中国将赢得地球上的 AI 竞赛！”，如下图所示：

彻底爆了！阿里最新Qwen大模型，再次拿下第一！

这真的不是盲目吹捧，因为就在同一天，被视为AI领域最公正、最权威的第三方盲测榜单 LMArena 更新了最新一期排名，硬核的数据印证了这一点。今天这篇文章我就来带大家看下这份榜单，感兴趣的朋友可以了解一下。

在开始分析前，先简单科普下 LMArena。它是由国际开源机构 LMSYS 组织的评测，最大的特点是“盲测”：

彻底爆了！阿里最新Qwen大模型，再次拿下第一！

全球开发者在不知晓具体模型名字的情况下，让两个模型直接PK，靠人类真实投票打分。这排除了品牌偏见，结果最具公信力。

1 阿里千问登顶中国最强模型

这次榜单更新，最大的亮点是阿里巴巴最新旗舰版模型** Qwen3.5-Max-Preview** 首度亮相，它斩获了 1464 分：

彻底爆了！阿里最新Qwen大模型，再次拿下第一！

在考验模型绝对胜率（无风格控制）的全球大模型性能总榜中，排名全球第六，问鼎中国最强模型，再次拿下国产大模型第一宝座，如下图所示：

彻底爆了！阿里最新Qwen大模型，再次拿下第一！

仔细研究这份榜单后发现，它的分数不仅超越了豆包2.0、GLM5、Kimi2.5等全部国产模型，同时直接超过了 GPT-5.4、Claude sonnet 4.5、Grok 4.1 等海外顶级模型。

不仅仅是综合能力，在具体的单项能力上表现也很扎实，数学能力子榜单：全球第5、中国第1，如下图所示：

彻底爆了！阿里最新Qwen大模型，再次拿下第一！

** 专家级文本能力子榜单**：全球第10、中国第1，如下图所示：

彻底爆了！阿里最新Qwen大模型，再次拿下第一！

这说明它的能力提升不是单点突破，而是整体架构效率的领先。

除了千问的亮眼表现，这次 LMSYS 基于模型能力对全球大模型公司进行的排名中，还有一个现象非常值得我们关注。

在全球公司前十名中，中国公司直接占据了半壁江山。阿里位列全球前五（也是排名最高的中国公司），领衔字节跳动、智谱、月之暗面、百度共 5 家中国公司闯入全球前十。

以前我们总觉得底层大模型技术主要靠几家海外大厂在撑着，但现在的客观盲测数据表明，国内 AI 大厂的技术实力已经稳稳站在了全球第一梯队。

2 预览版已登顶，完全体值得期待

为了弄清楚这个模型的潜力，我又仔细看了一下官方信息。

目前上榜的这个 Qwen3.5-Max-Preview 依然只是个** 预览版** （Preview），还不是最终形态。一个预览版就能在盲测中拿下这么高的分数，Qwen的底子确实不错：

彻底爆了！阿里最新Qwen大模型，再次拿下第一！

具体来说，这张LMArena官方公布的多维度能力对比雷达图，对比了千问家族的三代旗舰模型：最内圈的红线是之前的 2.5 版本，中间的绿线是 3.0 版本，而最外圈那条几乎顶到雷达图边缘的蓝线，就是这次的主角** Qwen-3.5-Max-Preview**。

大家可以非常直观地看到，代表 3.5 版本的蓝线形成了一个巨大的“全包围”圈，把前两代模型远远甩在了里面。

这意味着什么？

这意味着它根本不是在某个单一功能上“偏科”突进，而是在代码编写（Coding）、数学计算（Math）、复杂提示词理解（Hard Prompts）、专业知识（Expert）等16个细分文本能力维度上，实现了全方位的跨越式升级。

从红圈到绿圈，再到如今代表最新一代的蓝圈，这种肉眼可见的“面积扩张”，生动地展示了国产大模型在底层能力上的扎实迭代。可以说，现在的 Qwen-3.5 已经进化成了一个没有明显短板的“全能战士”，这也是它为什么能在盲测中以预览版身份直接登顶的真正底气所在。

有消息称，能力还将继续进化升级的旗舰版 Qwen3.5-Max 或将于近期正式发布。按照千问团队之前开源覆盖 0.8B 到 397B 尺寸模型的扎实作风，完全体的表现确实让人期待。

3 总结一下

经过对这次榜单客观数据的分析，得出的结论是：国产大模型确实在踏踏实实地进步。

阿里千问从 3.0 到 3.5 持续保持在全球前列，证明了咱们中国模型在全球大模型竞技场中已经有了标杆代表。

这些客观盲测排在前面的国产大模型，推荐看到这里的读者去实际用用看看，我带队开发的本地个人知识库目前用户已经2万3千人，内核RAG算法的嵌入模型、分词模型等使用的也是Qwen3.5的模型，RAG算法精度相比上一版本提升5%-10%，下一篇文章我会给读者们解读。

彻底爆了！阿里最新Qwen大模型，再次拿下第一！

1 阿里千问登顶中国最强模型

2 预览版已登顶，完全体值得期待

3 总结一下

常见问题

更多相关文章

读者留言

留言列表