MiniMax-M3 实测：对比 GPT-5.5、DeepSeek-V4 的代码与 Agent 能力

你好，我是郭震！

这篇是 MiniMax-M3 的真实任务实测，不只看榜单分数，重点看它在代码生成、前端页面、图片处理和 Agent 多步骤任务里的表现。

如果你在搜“MiniMax-M3 实测”“MiniMax-M3 对比 GPT-5.5”“MiniMax-M3 代码能力怎么样”，可以先看这篇。我把它和 GPT-5.5、DeepSeek-V4 放在同一组任务里跑了一遍。

先说结论：MiniMax-M3 的模型能力值得关注，但选模型不能只看一句“接近谁”。更关键的是它在你的真实工作流里，能不能稳定生成可运行结果、听懂长 prompt、完成工具调用，并且成本可控。

相关阅读：模型横向对比可以看大模型榜单与模型选型，代码和工程 Agent 可以看 AI 编程工具与工程 Agent。

最近MiniMax M3 发布，

听说coding能力已局部接近Claude Opus 4.7，

实际使用到底怎样，这两天实测了下，感兴趣的可以看下。

1 新模型介绍

下面是 AA Intelligence Index 榜单（简称AA），榜单显示MiniMax M3，排名全球第七，国产大模型排名第二：

AA Intelligence Index 中 MiniMax-M3 的综合模型排名

AA是目前较受关注的综合模型能力榜单之一。它选取真实任务、智能体、代码、长上下文、知识/幻觉、科学推理等 10 项评测，并按固定权重合成总分。

从该榜单看，MiniMax M3 在综合智能、代码工程和智能体/工具调用相关任务上已进入第一梯队，总分 54.7，接近 Claude Opus 4.7 的 57.3，显示出较强的工程任务与复杂任务处理能力。

真实开发场景到底好用不，接下来直接开始测评。

2 对比实测

测评思路：使用三个典型的中小型Agent任务，测评大家普遍关心的智能体能力。

然后选择Gemini3.1-Pro为裁判，根据两个裁判的打分，给出客观的结果评估。

第一个任务，它能测长 prompt 跟随、前端工程完整度等，提示词如下：

开发一个单文件 HTML 网页，实现 Excel 数据分析与可视化工具。支持上传 .xlsx/.xls，使用 SheetJS 解析 Excel，读取多 Sheet，并展示可搜索、分页、横向滚动的数据表格。自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和，并生成中文数据分析报告。使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化，并支持用户选择 X/Y 字段和图表类型自定义生成。只输出完整可运行的单文件 HTML 代码，不要解释，不要 Markdown，不依赖后端。

先发给MiniMax-M3：

向 MiniMax-M3 发送 Excel 数据分析 HTML 生成任务

输出下面前端界面：

MiniMax-M3 生成的 Excel 分析前端界面

得到数据表格：

MiniMax-M3 输出 Excel 数据表格视图

统计分析：

MiniMax-M3 生成字段统计分析区域

分析报告：

MiniMax-M3 输出中文数据分析报告

可视化图：

MiniMax-M3 生成的 Excel 可视化图表一

MiniMax-M3 生成的 Excel 可视化图表二

MiniMax-M3 生成的 Excel 可视化图表三

同样提示词发给GPT-5.5，输出前端界面如下所示：

GPT-5.5 生成的 Excel 分析前端界面

数据表格：

GPT-5.5 输出 Excel 数据表格视图

中文分析报告：

GPT-5.5 生成中文数据分析报告

可视化图：

GPT-5.5 生成的 Excel 可视化图表一

GPT-5.5 生成的 Excel 可视化图表二

同样提示词发给DeepSeek-V4-Pro，输出下面界面：

DeepSeek-V4-Pro 生成的 Excel 分析前端界面

表格展示：

DeepSeek-V4-Pro 输出 Excel 表格展示

数据概览：

DeepSeek-V4-Pro 生成数据概览面板

可视化图：

DeepSeek-V4-Pro 生成的 Excel 可视化图表一

DeepSeek-V4-Pro 生成的 Excel 可视化图表二

DeepSeek-V4-Pro 生成的 Excel 可视化图表三

第二个任务提示词：

创建一个完整可运行的单文件 HTML 页面，用 Three.js 实现一个 3D 智能工厂能源管理场景。场景包含厂房、光伏板、储能电池柜、变压器、控制中心、充电桩，以及它们之间流动的彩色能量管线。要求支持 OrbitControls 旋转缩放，包含光照、阴影、材质细节、中文设备标签、实时参数面板和能量流动动画。点击设备时，右侧显示设备详情。整体视觉要有工业科技感，所有几何体和纹理用代码生成，不使用外部模型或图片。只输出完整可运行的单文件 HTML 代码，不要解释，不要 Markdown，不依赖后端。

发送给MiniMax-M3：

向 MiniMax-M3 发送 3D 智能工厂能源管理任务

因为是动图，录制了一个GIF ：

MiniMax-M3 生成的 Three.js 智能工厂动图

同样提示词发给GPT-5.5：

GPT-5.5 生成的 Three.js 智能工厂动图

同样提示词发给DeepSeek-V4-Pro，生成结果也录制了一个动态图：

DeepSeek-V4-Pro 生成的 Three.js 智能工厂动图

第三个任务提示词：

请根据我上传的这张产品界面截图，开发一个完整可运行的单文件 HTML 页面，高保真复刻截图中的 UI。要求：1. 尽可能还原截图中的整体布局、颜色、字体层级、卡片结构、按钮样式、间距、阴影和交互状态；2. 所有图标优先用 CSS 或内置 Unicode/Emoji/简单 SVG 实现，不依赖外部图片；3. 页面必须响应式适配桌面端和手机端；4. 如果截图中有图表、表格、导航栏、侧边栏、搜索框、筛选器、数据卡片，都要完整实现；5. 所有内容用合理的中文业务文案补齐，不要出现 lorem ipsum；6. 增加基础交互：Tab 切换、筛选按钮、卡片 hover、弹窗或抽屉详情；7. 最终效果要像真实可上线的 SaaS 产品页面，而不是静态截图拼贴。只输出完整可运行的单文件 HTML 代码，不要解释，不要 Markdown，不依赖后端。

我传入的原图：

用于高保真 UI 复刻测试的原始产品截图