郭震 AI公众号:郭震AI

AI Model Benchmark Hub

大模型测评集:看懂榜单,而不是盲目追第一名

这里整理全球主流大模型测评网站,并用中文解释它们分别适合判断什么。Arena 更像真实用户偏好, Artificial Analysis 更适合综合能力、速度和价格比较,Vals AI 更接近行业任务,HELM 则强调透明和可复现。

Guozhen AI Composite Ranking v0.1

郭震 AI 综合加权榜

这是本站的原创综合排名:把 Arena 多场景偏好、Vals 真实任务、Artificial Analysis 生产选型信号、 HELM 透明评测信号归一化为 0-100 分后加权。它不是任何单一网站的官方排名,而是面向中文用户的综合判断。

自动快照:2026-06-01
每 3 天自动刷新一次,下一轮约 2026-06-05

当前自动榜优先使用 LMArena 官方 Hugging Face Dataset 的 Text、WebDev、Vision、Document 最新快照; Vals、Artificial Analysis 和 HELM 继续作为方法解释、人工校准和选型参考来源。

40%

Arena 多场景偏好

综合 Text、WebDev、Vision、Document 等用户偏好榜信号,反映真实使用体验。

25%

Vals / 真实任务

参考代码、终端、行业任务和 Agent 类任务表现,避免只看聊天体验。

25%

Artificial Analysis

参考综合智能、速度、延迟和价格等生产选型信号。

10%

HELM / 透明评测

参考可复现、鲁棒性、多指标分析和研究透明度。

排名模型综合分Arena任务效率透明最适合
1
claude-opus-4-7-thinking
Anthropic
94.8
99949087
复杂推理、长文档、工程 Agent、WebDev

Arena 多项靠前,同时在真实任务和工程类评测中保持强势,是当前综合榜的第一梯队核心模型。

2
claude-opus-4-6-thinking
Anthropic
93.6
98928987
文档理解、深度写作、推理任务

在 Text、Vision、Document 等偏好榜里非常稳定,综合能力略低于新版 thinking 模型。

3
gemini-3.1-pro-preview
Google
91.7
91969184
代码、长上下文、多模态、搜索增强任务

Vals 代码类和长上下文任务信号很强,综合分被真实任务表现显著拉高。

4
gpt-5.5-high
OpenAI
90.9
88959683
通用智能、代码修复、API 生产选型

在 Vals SWE-bench 类任务和综合智能信号上很强,成本速度维度也有优势。

5
claude-opus-4-7
Anthropic
89.4
96888686
写作、对话、文档、轻量 Agent

非 thinking 版本在 Arena 和 WebDev 中仍然很强,但复杂任务稳定性略低于 thinking 版本。

6
claude-opus-4-6
Anthropic
88.8
95878686
文本创作、视觉理解、文档分析

综合体验很稳,适合高质量内容和复杂材料分析。

7
gemini-3-pro
Google
88.3
90899184
视觉、多模态、长上下文

Vision 和多模态场景优势明显,综合分在 Google 模型中保持高位。

8
gpt-5.4-high
OpenAI
84.1
87888582
竞赛编程、稳定 API、通用助手

在部分学术和代码任务中仍有强信号,但整体已被 GPT-5.5 和新 Claude 拉开。

9
qwen3.7-max-20260517
Alibaba
83.7
86838679
中文任务、WebDev、性价比 API

WebDev 榜表现突出,中文和成本场景值得单独关注。

10
gemini-3.5-flash
Google
82.6
84819380
低延迟、多模态、高吞吐任务

不是最强智能模型,但速度和成本优势明显,适合规模化生产场景。

11
claude-sonnet-4-6
Anthropic
80.8
82818284
日常写作、代码解释、成本受控任务

不是顶级 Opus 档,但在成本与质量之间比较均衡。

12
glm-5.1
Zhipu AI
79.2
82788275
中文问答、国产生态、企业私有化评估

WebDev 信号不错,适合中文和国产生态场景继续复测。

13
kimi-k2.6
Moonshot AI
78.4
81778274
中文长文档、知识整理、性价比场景

长文档和中文生态有看点,但跨源覆盖还不如前三大厂充分。

14
muse-spark
Meta
77.1
85737876
通用对话、开源生态观察

Arena Text 信号较强,但工程、行业和生产选型数据覆盖不足,因此综合排名下调。

15
deepseek-r1-202605
DeepSeek
76.4
78798372
中文推理、数学、低成本 API

推理和性价比信号较好,适合中文技术问答和成本敏感任务复测。

16
deepseek-v3.1
DeepSeek
75.8
77768672
通用中文、批量处理、工具调用

效率和成本表现较好,适合作为批量工作流候选模型。

17
llama-4-maverick
Meta
74.9
75747888
开放生态、本地部署、研究复现

开放生态和透明度优势明显,但顶级任务能力弱于闭源第一梯队。

18
qwen3.7-plus
Alibaba
74.2
76738476
中文应用、低成本生产、国产生态

中文生态和价格友好,适合作为企业生产备选模型。

19
grok-4
xAI
73.6
76727770
实时信息、创意问答、社交语境

实时信息和创意问答有特点,但跨源评测覆盖不如主流第一梯队充分。

20
mistral-large-2
Mistral
72.8
73728079
欧盟合规、开放生态、多语言任务

多语言和合规场景有价值,但综合能力不在最前排。

数据更新提示:Live benchmark fetch failed; using static editorial fallback.;LMArena Text Style Control: fetch failed;LMArena WebDev: fetch failed;LMArena Vision Style Control: fetch failed;LMArena Document Style Control: fetch failed

Trusted Sources

主流大模型测评网站怎么读

Arena / LMArena

真实用户偏好

来源

通过匿名、成对比较收集真实用户投票,适合观察通用对话、写作、图片等体验型能力,但单一 Elo/BT 分数不等于所有业务场景最优。

通用聊天写作体验多模态偏好新模型热度

局限:用户偏好会受样本、流量分配、提示类型和模型曝光影响。

Artificial Analysis

能力、速度、价格综合

来源

同时跟踪智能指数、输出速度、延迟和价格,适合做 API 选型、成本控制和生产性能比较。

API 选型成本比较速度延迟综合能力

局限:综合指数无法覆盖每个公司的私有任务,仍需用自己的提示和数据复测。

Vals AI

行业任务测评

来源

聚焦金融、法律、医疗、代码、教育等高价值任务,适合判断模型在行业材料、长上下文和智能体流程里的实际可用性。

金融法律行业文档长上下文Agent 工作流

局限:部分数据集和评分细节是私有的,更适合作为行业信号而不是可完全复现实验。

Stanford HELM

透明可复现评测

来源

强调公开场景、指标和可复现流程,适合研究型读者理解模型能力、鲁棒性和评测方法。

研究复现能力分项评测方法多指标分析

局限:更新节奏通常不如商业榜单快,实时新模型覆盖可能滞后。

Guozhen AI Scorecard

本站建议的综合分析框架

30%

综合智能

看数学、科学、推理、知识和复杂指令的整体表现,避免只看单个榜单第一名。

25%

真实任务

关注行业文档、代码仓库、工具调用、多轮流程和长上下文,而不是只看考试题。

20%

稳定性

观察是否容易幻觉、是否能稳定遵循格式、是否能在长任务中保持一致。

15%

成本与速度

同等质量下,比较输入输出价格、延迟、吞吐和上下文窗口。

10%

开放性与可控性

区分闭源 API、开放权重、本地部署、数据合规和可审计能力。

Model Selection

按真实场景选择模型

日常写作、问答、知识整理

优先参考 Arena 偏好榜,再结合 Artificial Analysis 的速度和成本。

代码生成、修 bug、工程 Agent

优先看 LiveCodeBench、SWE-bench、Terminal-Bench、Vals 代码类任务,并用自己的仓库复测。

金融、法律、医疗、教育等行业场景

优先看 Vals 这类行业任务榜,再补充企业内部私有评测。

研究、论文、模型能力分析

优先看 HELM、GPQA、MMLU-Pro、HLE 等透明或学术测评,并阅读方法说明。

本地部署、私有数据、安全合规

单独比较开放权重、许可证、部署成本、上下文窗口和数据留存策略。

日常写作、问答、知识整理

优先参考 Arena 偏好榜,再结合 Artificial Analysis 的速度和成本。

权重:Arena Text/Document 偏好 50%,综合智能 20%,输出速度和成本 20%,中文知识整理体验 10%。

#1
claude-opus-4-7-thinking
Anthropic
96.2

写作质量、长答案组织、复杂问答和文档总结稳定性最强,适合高质量内容生产。

#2
claude-opus-4-6-thinking
Anthropic
95.1

Arena Text 和 Document 信号非常稳,适合长文档理解、深度写作和知识整理。

#3
gemini-3.1-pro-preview
Google
91.8

多模态、长上下文和信息组织能力强,适合资料汇总和跨格式知识整理。

#4
gpt-5.5-high
OpenAI
90.7

综合问答、结构化输出和 API 生产体验好,适合知识库、客服和自动化问答。

#5
gemini-3.5-flash
Google
84.4

质量不是最高,但速度和成本优势明显,适合高频摘要、批量改写和轻量问答。

#6
claude-opus-4-7
Anthropic
88.9

非 thinking 版本写作和对话体验仍然很强,适合高质量内容草稿和长文改写。

#7
gemini-3-pro
Google
87.6

多模态资料整理和长上下文问答较强,适合跨文档知识汇总。

#8
gpt-5.4-high
OpenAI
86.8

结构化问答和知识整理稳定,适合通用助手和企业知识库候选。

#9
claude-sonnet-4-6
Anthropic
85.7

质量和成本比较均衡,适合日常写作、解释和摘要。

#10
qwen3.7-max-20260517
Alibaba
84.9

中文表达和 Web 信息整理较好,适合中文内容生产复测。

#11
deepseek-r1-202605
DeepSeek
83.8

推理型问答较强,适合技术解释和中文知识问答。

#12
kimi-k2.6
Moonshot AI
82.7

中文长文档整理有优势,适合资料归纳和长文本提炼。

#13
glm-5.1
Zhipu AI
81.9

中文通用问答较稳,适合国产生态和企业中文场景。

#14
deepseek-v3.1
DeepSeek
81.3

成本友好,适合批量问答和低成本内容处理。

#15
qwen3.7-plus
Alibaba
80.6

适合中文轻量知识整理和成本敏感应用。

#16
muse-spark
Meta
79.8

Arena 文本偏好信号不错,适合开放生态观察。

#17
llama-4-maverick
Meta
78.9

开放生态友好,适合可控部署下的文本任务。

#18
grok-4
xAI
78.1

实时信息和创意表达有特色,适合轻量探索。

#19
mistral-large-2
Mistral
76.8

多语言表达稳定,适合欧盟合规和多语种内容场景。

#20
command-r-plus-next
Cohere
75.9

检索增强和企业知识问答方向值得作为备选模型。

代码生成、修 bug、工程 Agent

优先看 LiveCodeBench、SWE-bench、Terminal-Bench、Vals 代码类任务,并用自己的仓库复测。

权重:Vals/SWE 类真实任务 40%,WebDev/Arena 工程偏好 25%,Agent 稳定性 20%,速度成本 15%。

#1
gemini-3.1-pro-preview
Google
96.0

代码类任务、长上下文和仓库级理解信号强,适合复杂工程修改和搜索增强开发。

#2
gpt-5.5-high
OpenAI
95.2

SWE 风格修复、结构化工具调用和生产 API 表现强,适合工程 Agent 和自动修 bug。

#3
claude-opus-4-7-thinking
Anthropic
94.5

WebDev 榜和复杂推理强,适合前端重构、架构分析和长链路代码任务。

#4
qwen3.7-max-20260517
Alibaba
87.6

WebDev 信号突出,中文工程场景和成本敏感 API 场景值得优先复测。

#5
claude-sonnet-4-6
Anthropic
84.9

成本和质量较均衡,适合日常代码解释、局部修复和轻量 Agent 工作流。

#6
claude-opus-4-6-thinking
Anthropic
84.0

复杂代码解释和架构分析稳定,但工程自动化弱于前三。

#7
gpt-5.4-high
OpenAI
83.4

竞赛编程和通用代码任务仍然强,适合作为稳定备选。

#8
claude-opus-4-7
Anthropic
82.9

前端、文档和轻量 Agent 表现不错,复杂推理略弱于 thinking。

#9
gemini-3-pro
Google
82.1

长上下文和多模态工程材料处理较强。

#10
deepseek-r1-202605
DeepSeek
81.6

推理和算法题信号较强,适合技术问答和局部修复。

#11
deepseek-v3.1
DeepSeek
80.7

成本效率不错,适合批量代码解释和轻量生成。

#12
qwen3.7-plus
Alibaba
79.9

中文工程场景和成本敏感 API 可以复测。

#13
glm-5.1
Zhipu AI
78.8

WebDev 信号尚可,适合中文工程助手备选。

#14
kimi-k2.6
Moonshot AI
77.9

长文档代码说明和需求梳理有价值。

#15
llama-4-maverick
Meta
76.8

本地可控代码助手可测试,但仓库级能力需复测。

#16
mistral-large-2
Mistral
75.8

多语言代码解释可用,顶级修复能力有限。

#17
muse-spark
Meta
74.9

开放生态候选,真实工程任务覆盖还需补充。

#18
grok-4
xAI
74.1

适合实时技术资料辅助,但工程修复稳定性需自测。

#19
command-r-plus-next
Cohere
73.4

RAG 工程解释有价值,代码生成不是最强项。

#20
yi-large-next
01.AI
72.8

中文工程资料问答可作为长尾候选。

金融、法律、医疗、教育等行业场景

优先看 Vals 这类行业任务榜,再补充企业内部私有评测。

权重:Vals 行业任务 45%,长文档和推理 25%,合规可控性 15%,成本速度 15%。

#1
claude-opus-4-7-thinking
Anthropic
95.0

长文档、复杂推理和安全回答风格稳定,适合法律、金融研究和教育内容审核。

#2
gemini-3.1-pro-preview
Google
93.8

长上下文、多模态和行业材料处理能力强,适合报告、文档和跨格式资料分析。

#3
gpt-5.5-high
OpenAI
92.9

综合智能和工具生态好,适合企业知识库、客服、内部流程自动化和合规审阅。

#4
claude-opus-4-6-thinking
Anthropic
91.5

文档处理和推理能力稳定,适合行业研究和专业材料整理。

#5
kimi-k2.6
Moonshot AI
82.3

中文长文档和知识整理有优势,适合中文行业材料的低成本复测。

#6
claude-opus-4-7
Anthropic
89.9

专业写作和材料整理稳定,适合非最高复杂度行业工作流。

#7
gemini-3-pro
Google
88.4

多模态行业材料和长上下文任务表现较好。

#8
gpt-5.4-high
OpenAI
87.8

企业工具生态稳定,适合行业知识库备选。

#9
qwen3.7-max-20260517
Alibaba
86.2

中文行业材料和国产生态场景值得复测。

#10
claude-sonnet-4-6
Anthropic
85.4

成本和质量均衡,适合日常行业文档助手。

#11
deepseek-r1-202605
DeepSeek
84.1

推理类行业问答有价值,适合技术和规则解释。

#12
glm-5.1
Zhipu AI
83.3

国产生态和中文场景友好,适合企业内部评估。

#13
deepseek-v3.1
DeepSeek
82.4

低成本批量处理行业文本可作为候选。

#14
qwen3.7-plus
Alibaba
81.6

中文成本敏感行业场景可继续复测。

#15
llama-4-maverick
Meta
80.5

开放部署价值高,适合私有数据合规前提下评估。

#16
mistral-large-2
Mistral
79.7

欧盟合规和多语言行业材料有优势。

#17
muse-spark
Meta
78.8

开放生态候选,但行业任务覆盖需加强。

#18
command-r-plus-next
Cohere
78.0

RAG 和企业知识问答方向有可用性。

#19
grok-4
xAI
77.1

实时信息辅助有价值,严肃行业场景需谨慎复测。

#20
yi-large-next
01.AI
76.2

中文行业资料问答可作为长尾候选。

研究、论文、模型能力分析

优先看 HELM、GPQA、MMLU-Pro、HLE 等透明或学术测评,并阅读方法说明。

权重:透明学术评测 35%,推理和知识能力 30%,可复现性 20%,工具/检索辅助 15%。

#1
claude-opus-4-7-thinking
Anthropic
94.2

复杂推理、论文总结和长链路分析能力强,适合研究助理和方法论比较。

#2
gpt-5.5-high
OpenAI
93.4

综合知识、工具生态和结构化分析能力强,适合论文阅读、实验设计和代码验证。

#3
gemini-3.1-pro-preview
Google
92.8

长上下文和多模态材料处理能力强,适合跨论文、图表和数据资料分析。

#4
claude-opus-4-6-thinking
Anthropic
91.0

推理和文档理解稳定,适合严肃长文阅读和研究笔记整理。

#5
gemini-3-pro
Google
87.1

视觉和多模态理解较好,适合图表、论文插图和实验材料分析。

#6
claude-opus-4-7
Anthropic
88.9

长文阅读和结构化研究笔记稳定。

#7
gpt-5.4-high
OpenAI
88.2

学术问答和代码验证能力仍然较强。

#8
deepseek-r1-202605
DeepSeek
86.7

推理和数学解释适合作为研究辅助候选。

#9
qwen3.7-max-20260517
Alibaba
85.6

中文论文和技术资料整理可用性较好。

#10
claude-sonnet-4-6
Anthropic
84.9

研究笔记整理和论文解释成本较稳。

#11
llama-4-maverick
Meta
84.1

开放生态和可复现性较好,适合研究复核。

#12
deepseek-v3.1
DeepSeek
83.3

低成本技术材料处理可作为批量研究助手。

#13
glm-5.1
Zhipu AI
82.2

中文研究材料解释和国产生态有价值。

#14
kimi-k2.6
Moonshot AI
81.5

中文长文档和资料摘要适合复测。

#15
qwen3.7-plus
Alibaba
80.6

中文研究资料整理的成本友好候选。

#16
mistral-large-2
Mistral
79.8

多语言研究资料处理和合规场景有价值。

#17
muse-spark
Meta
78.7

开放生态候选,但学术任务覆盖仍需补充。

#18
grok-4
xAI
77.9

实时资料探索有特色,严肃研究需核验。

#19
command-r-plus-next
Cohere
77.0

检索增强研究资料问答可作为专用候选。

#20
yi-large-next
01.AI
76.2

中文研究文本整理可做长尾备选。

本地部署、私有数据、安全合规

单独比较开放权重、许可证、部署成本、上下文窗口和数据留存策略。

权重:开放性和可部署性 35%,数据控制 25%,中文可用性 15%,成本效率 15%,能力表现 10%。

#1
qwen3.7-max / Qwen 开放生态
Alibaba
89.0

中文生态、开源社区和本地部署路线完整,适合私有知识库和国产化评估。

#2
glm-5.1 / GLM 开放生态
Zhipu AI
86.4

中文能力和企业落地生态较强,适合国产模型私有化和行业应用验证。

#3
kimi-k2.6 / Moonshot 生态
Moonshot AI
83.2

长上下文和中文文档场景值得关注,适合中文资料整理与内部知识问答复测。

#4
muse-spark / Meta 开放生态
Meta
81.5

开放生态和社区可玩性强,但中文、行业任务和企业支持需要额外验证。

#5
gemini-3.5-flash
Google
78.8

严格意义上不是本地部署优先项,但在低成本、高吞吐、私有数据脱敏后调用场景有价值。

#6
deepseek-r1 / DeepSeek open ecosystem
DeepSeek
77.9

推理和开源生态有价值,适合私有推理任务评估。

#7
deepseek-v3.1 / DeepSeek ecosystem
DeepSeek
77.2

成本友好,适合私有批量文本任务。

#8
mistral-large-2 / Mistral ecosystem
Mistral
76.5

多语言和欧盟合规场景有吸引力。

#9
qwen3.7-plus / Qwen open ecosystem
Alibaba
75.8

中文部署和成本敏感场景值得复测。

#10
command-r-plus-next
Cohere
74.9

企业 RAG 和数据控制场景有价值。

#11
yi-large-next
01.AI
74.0

中文本地化生态可作为候选。

#12
baichuan-4-next
Baichuan
73.2

中文企业场景和私有化路线可评估。

#13
internlm3-latest
Shanghai AI Lab
72.6

研究和教育生态友好,适合实验型部署。

#14
minimax-text-01
MiniMax
71.8

中文应用生态候选,需结合私有化条件判断。

#15
ernie-4.5
Baidu
71.1

国产生态和企业集成渠道可考虑。

#16
gemini-3.5-flash
Google
70.5

非本地优先,但脱敏后高吞吐调用有价值。

#17
gpt-5.5-high
OpenAI
69.4

能力强但本地部署和数据控制不是优势。

#18
claude-sonnet-4-6
Anthropic
68.8

能力均衡,但私有部署维度受限。

#19
claude-opus-4-7-thinking
Anthropic
68.1

能力最强之一,但本地和私有部署维度不占优。

#20
gemini-3.1-pro-preview
Google
67.6

能力很强,但本地部署和私有数据控制不是主要优势。

编辑说明

本页不是复制外部榜单,也不声称某个模型永远最好。郭震 AI 会把公开测评来源、方法差异和中文应用场景放在一起解释。 对企业或个人项目来说,最稳妥的方法是先看公开榜单,再用自己的提示、数据、预算和合规要求做小样本复测。