郭震 AI公众号:郭震AI

MiniMax-M3 实测:对比 GPT-5.5、DeepSeek-V4 的代码与 Agent 能力

发布日期:

最近更新:

分类: AI消息

预计阅读: 6 分钟

阅读次数: 0

预计阅读6 分钟
结构重点5 个
图文要点0 张
正文规模2.8k 字

English edition

Global readers can continue with the English version and buyer guides.

英文版更适合海外搜索、工具选型和软件采购场景;也会继续导向 AI software、tools 和 model benchmark 页面。

Read English edition

你好,我是郭震!

这篇是 MiniMax-M3 的真实任务实测,不只看榜单分数,重点看它在代码生成、前端页面、图片处理和 Agent 多步骤任务里的表现。

如果你在搜“MiniMax-M3 实测”“MiniMax-M3 对比 GPT-5.5”“MiniMax-M3 代码能力怎么样”,可以先看这篇。我把它和 GPT-5.5、DeepSeek-V4 放在同一组任务里跑了一遍。

先说结论:MiniMax-M3 的模型能力值得关注,但选模型不能只看一句“接近谁”。更关键的是它在你的真实工作流里,能不能稳定生成可运行结果、听懂长 prompt、完成工具调用,并且成本可控。

相关阅读:模型横向对比可以看 大模型榜单与模型选型,代码和工程 Agent 可以看 AI 编程工具与工程 Agent

最近MiniMax M3 发布,

听说coding能力已局部接近Claude Opus 4.7,

实际使用到底怎样,这两天实测了下,感兴趣的可以看下。

1 新模型介绍

下面是 AA Intelligence Index 榜单(简称AA),榜单显示MiniMax M3,排名全球第七,国产大模型排名第二:

AA Intelligence Index 中 MiniMax-M3 的综合模型排名

AA是目前较受关注的综合模型能力榜单之一。它选取真实任务、智能体、代码、长上下文、知识/幻觉、科学推理等 10 项评测,并按固定权重合成总分。

从该榜单看,MiniMax M3 在综合智能、代码工程和智能体/工具调用相关任务上已进入第一梯队,总分 54.7,接近 Claude Opus 4.7 的 57.3,显示出较强的工程任务与复杂任务处理能力。

真实开发场景到底好用不,接下来直接开始测评。

2 对比实测

测评思路:使用三个典型的中小型Agent任务,测评大家普遍关心的智能体能力。

然后选择Gemini3.1-Pro为裁判,根据两个裁判的打分,给出客观的结果评估。

第一个任务,它能测长 prompt 跟随、前端工程完整度等,提示词如下:

开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。支持上传 .xlsx/.xls,使用 SheetJS 解析 Excel,读取多 Sheet,并展示可搜索、分页、横向滚动的数据表格。自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和,并生成中文数据分析报告。使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化,并支持用户选择 X/Y 字段和图表类型自定义生成。只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。

先发给MiniMax-M3:

向 MiniMax-M3 发送 Excel 数据分析 HTML 生成任务

输出下面前端界面:

MiniMax-M3 生成的 Excel 分析前端界面

得到数据表格:

MiniMax-M3 输出 Excel 数据表格视图

统计分析:

MiniMax-M3 生成字段统计分析区域

分析报告:

MiniMax-M3 输出中文数据分析报告

可视化图:

MiniMax-M3 生成的 Excel 可视化图表一

MiniMax-M3 生成的 Excel 可视化图表二

MiniMax-M3 生成的 Excel 可视化图表三

同样提示词发给GPT-5.5,输出前端界面如下所示:

GPT-5.5 生成的 Excel 分析前端界面

数据表格:

GPT-5.5 输出 Excel 数据表格视图

中文分析报告:

GPT-5.5 生成中文数据分析报告

可视化图:

GPT-5.5 生成的 Excel 可视化图表一

GPT-5.5 生成的 Excel 可视化图表二

同样提示词发给DeepSeek-V4-Pro,输出下面界面:

DeepSeek-V4-Pro 生成的 Excel 分析前端界面

表格展示:

DeepSeek-V4-Pro 输出 Excel 表格展示

数据概览:

DeepSeek-V4-Pro 生成数据概览面板

可视化图:

DeepSeek-V4-Pro 生成的 Excel 可视化图表一

DeepSeek-V4-Pro 生成的 Excel 可视化图表二

DeepSeek-V4-Pro 生成的 Excel 可视化图表三

第二个任务提示词:

创建一个完整可运行的单文件 HTML 页面,用 Three.js 实现一个 3D 智能工厂能源管理场景。场景包含厂房、光伏板、储能电池柜、变压器、控制中心、充电桩,以及它们之间流动的彩色能量管线。要求支持 OrbitControls 旋转缩放,包含光照、阴影、材质细节、中文设备标签、实时参数面板和能量流动动画。点击设备时,右侧显示设备详情。整体视觉要有工业科技感,所有几何体和纹理用代码生成,不使用外部模型或图片。只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。

发送给MiniMax-M3:

向 MiniMax-M3 发送 3D 智能工厂能源管理任务

因为是动图,录制了一个GIF :

MiniMax-M3 生成的 Three.js 智能工厂动图

同样提示词发给GPT-5.5:

GPT-5.5 生成的 Three.js 智能工厂动图

同样提示词发给DeepSeek-V4-Pro,生成结果也录制了一个动态图:

DeepSeek-V4-Pro 生成的 Three.js 智能工厂动图

第三个任务提示词:

请根据我上传的这张产品界面截图,开发一个完整可运行的单文件 HTML 页面,高保真复刻截图中的 UI。要求:1. 尽可能还原截图中的整体布局、颜色、字体层级、卡片结构、按钮样式、间距、阴影和交互状态;2. 所有图标优先用 CSS 或内置 Unicode/Emoji/简单 SVG 实现,不依赖外部图片;3. 页面必须响应式适配桌面端和手机端;4. 如果截图中有图表、表格、导航栏、侧边栏、搜索框、筛选器、数据卡片,都要完整实现;5. 所有内容用合理的中文业务文案补齐,不要出现 lorem ipsum;6. 增加基础交互:Tab 切换、筛选按钮、卡片 hover、弹窗或抽屉详情;7. 最终效果要像真实可上线的 SaaS 产品页面,而不是静态截图拼贴。只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。

我传入的原图:

用于高保真 UI 复刻测试的原始产品截图

这是MiniMax-M3根据原图得到的html文件,截图如下所示:

MiniMax-M3 根据截图生成的 HTML 文件预览

双击打开后的UI图,如下所示:

MiniMax-M3 复刻产品界面的浏览器效果

这是GPT-5.5对应的html打开后的UI:

GPT-5.5 复刻产品界面的浏览器效果

以下DeepSeek-V4-Pro对应的html,打开后UI:

DeepSeek-V4-Pro 复刻产品界面的浏览器效果

以上测试了三个case,接下来交给裁判Gemini-3.1-Pro逐case打分。

3 裁判打分

为了更加客观,交给裁判Gemini-3.1-pro模型,评估如下图所示:

对于第一个测试案例,这是Gemini-3.1-pro使用三个打分维度的最终得分:

Gemini 3.1 Pro 对 Excel 工具任务给出评分维度

最终排名如下:

Gemini 3.1 Pro 给出 Excel 工具任务模型排名

MiniMax-M3排名第一,DeepSeek-V4-排名第二,GPT-5.5排名第三。

对于第二个测试case,如下发给Gemini-3.1-Pro:

Gemini 3.1 Pro 对 3D 场景任务进行评分

最终排名结果如下:

Gemini 3.1 Pro 给出 3D 场景任务模型排名

MiniMax-M3排名第一,GPT-5.5排名第二,DeepSeek-V4-Pro微弱劣势排第三。

对于第三个case,发给Gemini-3.1-Pro:

Gemini 3.1 Pro 对 UI 复刻任务进行评分

最终排名结果如下:

Gemini 3.1 Pro 给出 UI 复刻任务模型排名

GPT-5.5和MiniMax-M3并列第一,DeepSeek-V4-Pro这次排第三。

最后总结一下

这次三个 case 跑下来,Excel 工具、3D 场景、截图复刻这三类任务里,MiniMax-M3 都拿到了第一或并列第一,尤其生成的3D动画效果太棒了,整体完成度超过了 GPT-5.5 和 DeepSeek-V4-Pro,这个结果我没有全部预料到。

意外的是,GPT-5.5在Excel工具任务上,只拿到第三,原本以为它的数据分析能力应该是最强的,这个出乎我的意料。

一句话总结:MiniMax M3 在前端视觉、复杂网页和 Agent 执行任务上,已进入第一梯队。

全文1796字,39图,如果你觉得这篇文章对你有帮助,也欢迎给我一个三连击:点赞、转发和在看;如果可以,再帮我点一个⭐️。谢谢你看到这里,我们下篇再见。

分享文章

转发到常用平台

微信/朋友圈可先复制链接

相关内容

更多相关文章

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...