郭震 AI公众号:郭震AI

模型榜单

大模型榜单与模型选型

汇总大模型测评来源、中文场景选型、API 成本、本地部署和不同任务下的模型推荐。

适合需要在 ChatGPT、Claude、Gemini、DeepSeek、Qwen、Kimi、本地模型之间做选择的人。

大模型榜单模型排名AI 模型ChatGPTClaudeGeminiDeepSeekQwenKimi

先看这些

工具、对比和入门页

最近更新

最近实测与 AI 动态

AI 实测2026-06-17

GLM-5.2、Kimi 2.7 Code、Claude Opus 4.8 对比实测:Agent 任务谁更稳

GLM-5.2、Kimi 2.7 Code 和 Claude Opus 4.8 对比实测:用 Excel 数据分析网页任务测试代码生成、长程 Agent 执行、图表和报告能力。

看实测
AI 实测2026-05-31

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

实测最新 Qwen3.7-Max:最近 Qwen3.7-Max,Claude Opus 4.8,两个模型发布,Claude Opus 4.8,第一,Qwen3.7-Max,第二,前面只有 Opus 4.8,到底实际生产。

看实测
AI 实测2026-05-10

DeepSeek-V4 本地部署教程:LM Studio 跑 Qwen3.5-9B GGUF 实测

DeepSeek-V4 本地部署实测:用 LM Studio 下载 Qwen3.5-9B-DeepSeek-V4-Flash-GGUF,说明显存门槛、GGUF 版本、RAG/Agent 场景和普通电脑能不能跑。

看实测
AI 实测2026-06-02

Qwen3.6-35B 接入 MyClaw 实测:讯飞星辰 MaaS API 配置教程

用讯飞星辰 MaaS 的 Qwen3.6-35B API 接入 MyClaw/OpenClaw,记录 Base URL、模型 ID、API Key 配置、联通测试和代码、数据分析效果。

看实测
AI 实测2025-06-26

DeepSeek,4o,Qwen,Kimi,全被攻破!竟都回答OpenAI的CEO是Tim Cook?到底发生了什么!

DeepSeek,4o,Qwen,Kimi,全被攻破!竟都回答OpenAI的CEO:首先跟大家汇报下DeepSeekMine(一个本地个人知识库管理软件)最新进度,大概在3天左右发布一个大版本,并且我们先临时下线了历史。

看实测
AI 实测2026-04-30

Qwen3.6:27B 本地部署与 Agent 实测:Ollama + OpenClaw 使用体验

Qwen3.6:27B 本地部署和 Agent 能力实测:用 Ollama 下载运行模型,接入 OpenClaw/MyClaw 测试本地算力、工具调用、多模态任务和自动化工作流表现。

看实测
AI 实测2026-06-05

MiniMax-M3 实测:对比 GPT-5.5、DeepSeek-V4 的代码与 Agent 能力

MiniMax-M3 发布后,我用 Excel 数据分析页面、图片分割和多步骤 Agent 任务对比 GPT-5.5、DeepSeek-V4,记录代码生成、工具调用、稳定性和适合场景。

看实测
AI 实测2026-03-20

彻底爆了!阿里最新Qwen大模型,再次拿下第一!

彻底爆了!阿里最新Qwen大模型,再次拿下第一:很多读者平时都会使用各种大模型来帮自己写代码、处理工作文档,但大家心里经常会有一个疑问:现在到底哪个大模型最聪明?国产大模型和海外顶尖模型相比,到底在什么水平,今天这篇文。

看实测

相关教程

相关教程文章

chatgpt-principle-zero2024-08-101782

8 ChatGPT原理小白教程:模型训练之预训练与微调

预训练和微调可以用学习过程来理解:先大量阅读形成语言直觉,再用更小、更明确的数据训练它按某种方式回答。这个区分很重要,因为很多产品问题不是模型不会,而是没有对齐到你的任务。

阅读文章
deepseek-study2025-02-143648

0 AI大模型零基础学习路线图

我重新看这篇路线图时,最想补的一点是学习顺序。很多人一上来就追参数、榜单和各种模型名,结果本地环境还没跑通,就已经被新名词绕晕了。我的做法是先把电脑能运行的小模型跑起来,再回头补 Transformer、RAG、微调这些概念,这样每个概念都有能落地的画面。

阅读文章
deepseek-study2025-06-052402

34 DeepSeek现在能直接生成Word、PDF、Excel了,还能一键导出,这个确实很赞!

Word、PDF、Excel 导出很实用,但验收不能只看文件能下载。标题层级、表格宽度、分页、中文字体和公式显示,都可能影响实际使用。尤其是给客户或同事看的文件,格式问题会直接影响信任。

阅读文章
deepseek-study2025-03-302382

28 DeepSeekMine个人知识库软件三个使用技巧

使用技巧最好来自真实重复场景。比如文件命名清楚、同类资料分组、问题里带上时间和范围,这些看起来小,但会直接影响检索和回答。工具越智能,资料管理越不能随意。

阅读文章
deepseek-study2025-03-262535

25 DeepSeek接入Mureka,直接生成好听的音乐,确实可以封神了!

音乐生成的门槛降低后,更要注意使用边界。试听好听只是第一步,能否导出、能否商用、歌词有没有问题、是否和已有作品过近,都需要单独确认。内容越容易生成,越要保留人工判断。

阅读文章
deepseek-study2025-02-252434

13 DeepSeek满血版, 这样部署确实可以封神了!

满血部署最容易被忽略的是恢复能力。模型跑起来只是第一步,还要知道服务挂了怎么重启、日志在哪里、端口是否被占用、显存是否被其他进程抢走。真实使用里,稳定性比一次成功截图更重要。

阅读文章
deepseek-study2025-02-132488

9 DeepSeek满血版,直接在线飞速跑,确实可以封神了!

在线满血版最吸引人的地方是省配置,但我会同时看三个指标:高峰期是否排队,长上下文是否稳定,费用是否适合高频使用。只看一次演示速度,很容易低估长期使用成本。

阅读文章
chatgpt-principle-zero2024-08-101608

2 ChatGPT的历史背景

我看 ChatGPT 的历史,不会只记发布时间线,而是看三条线怎样合在一起:模型架构变强、训练数据变大、交互产品变简单。真正改变普通用户体验的,是这三件事同时发生。

阅读文章
deepseek-study2025-05-212522

33 这样做,DeepSeek终于不再胡说了!

让模型少胡说,不能只靠一句“不要编造”。更有效的是给它可靠资料、要求引用来源、找不到时允许拒答,并把高风险答案交给人复核。幻觉问题是系统设计问题,不只是提示词问题。

阅读文章
deepseek-study2025-04-272405

32 DeepSeek接入这个智能体后,能够吞下整本书了,确实可以封神了!

整本书不是把 PDF 丢进去就结束。章节结构、目录层级、引用页码和问题范围都会影响回答。我的做法是先让系统能按章节找依据,再做总结和跨章节比较。

阅读文章
deepseek-study2025-04-021992

29 DeepSeekMine-V6.1软件修复问题

修复说明最有价值的部分,是告诉用户这个问题在什么情况下出现、现在怎样确认已经解决。只写“优化体验”很难让人放心。能复现、能验证,才是对用户真正有帮助的更新记录。

阅读文章
deepseek-study2025-03-263562

26 DeepSeek+实在Agent,一句指令生成全自动流程

一句指令生成流程很吸引人,但我更关心它哪里会停下来让人确认。涉及文件、账号、支付、发布这些动作时,智能体不能一路自动执行到底。好的自动化应该省步骤,不应该省掉责任。

阅读文章
deepseek-study2025-03-121411

18 DeepSeek接入个人知识库,最新软件安装包发布!

我不建议一看到最新版本就直接覆盖旧环境。先用几份测试文档跑一遍导入、检索、问答和导出,确认没有明显问题,再迁移正式资料。这个节奏慢一点,但能避免把旧数据置于风险里。

阅读文章
deepseek-study2025-02-262658

16 DeepSeek平台使用介绍

看平台时我会按真实流程走一遍:注册、选择模型、发起调用、查看用量、处理失败。只要其中某一步不清楚,后面接入项目就会卡。平台介绍最好服务于这个流程,而不是只罗列菜单。

阅读文章
deepseek-study2025-02-251412

14 DeepSeek接入个人知识库,v0.4软件安装包发布!

版本更新我一般不只看“新增了什么”,还会看旧数据是否兼容。知识库软件最怕升级后索引丢失、配置变动或旧文件打不开,所以更新前先留备份,比看更新说明更重要。

阅读文章
deepseek-study2025-02-07995

1 为什么要在本地部署大模型

我建议先把“为什么本地部署”想清楚,再去装模型。对个人用户来说,它最大的价值不是跑分,而是私密资料不用上传、网络差的时候还能用、失败时能看到日志。只要你准备拿它处理真实文件,这几个好处就比单纯追求满血模型更实际。

阅读文章
deepseek-study2025-02-072347

3 DeepSeek 零基础必知

我读这类基础概念时,会尽量把它们和本地使用联系起来。比如 1.5B、7B、70B 不只是数字,它们会影响下载体积、内存占用、回答速度和效果上限。理解这些,后面选模型时就不会只看名字。

阅读文章
deepseek-study2025-02-072049

4 DeepSeek-R1 精华图解

这篇原本已经有不少论文图,我补这张图的目的不是替代论文,而是把阅读顺序画出来。先看 R1-Zero 为什么特别,再看它为什么还需要可读性和通用能力补强,最后再理解 R1 怎样把推理能力接到真实使用里。

阅读文章

常见问题

模型榜单能直接决定选型吗?

不能。榜单只能缩小候选,最终还要结合任务、成本、速度、上下文、隐私和你自己的小样本测试。

中文用户应该优先看哪些维度?

中文表达、长文档、代码、工具调用、国内可访问性、价格和数据合规都要单独看。