实测最新 Gemini-3.5，对比 DeepSeek-…测了什么？

看 AI消息的实际效果、使用门槛和结果表现。

实测最新 Gemini-3.5，对比 DeepSeek-…适合谁看？

适合正在选工具、做本地部署或验证 AI 工作流的人。

实测最新 Gemini-3.5，对比 DeepSeek-…要注意什么？

重点看配置成本、失败点、数据边界和可替代方案。

实测最新 Gemini-3.5，对比 DeepSeek-V4、GPT-5.5，结果出人意料！

Q: 实测最新 Gemini-3.5，对比 DeepSeek-…测了什么？

看 AI消息 的实际效果、使用门槛和结果表现。

你好，我是郭震

历经近半年，Gemini 从 3 升级到了 3.5，

并且这次只发布了 3.5 Flash，号称已超越自家 3.1 Pro，

今天对比实测下，感兴趣可以看看。

1 Gemini 3.5 Flash

先看Card报告评分：

在 Coding 上，它的 Terminal-bench 2.1 达到 76.2%，已经接近 GPT-5.5 的 78.2%，明显超过 Gemini 3 Flash 和 Gemini 3.1 Pro。

更关键的是 Agent 能力。

MCP Atlas 直接冲到 83.6%，比 GPT-5.5、Claude Opus 4.7 都高；

Toolathlon 也有 56.5%，说明它在 MCP、多工具调用、真实任务流里表现很强。

UI 操作也不弱，OSWorld-Verified 是 78.4%，几乎贴着 GPT-5.5 的 78.7%。

以上评分看到，Gemini 3.5 Flash 已成为在 Agent、MCP、真实工具使用场景里非常能打的主力模型。

2 对比实测

测试思路：确定测试环境，确定对比测试使用的大模型，把各自结果发给裁判Gemini-3.1-Pro

测试环境配置如下：

我构思了一个小型Agent任务，如下所示：

我会上传一个 Excel 文件，请读取并分析数据。
请识别字段、数据类型、行数、列数，并检查空值/异常值/重复值。
请自动选择适合做柱状图、折线图、饼图的字段。
请只输出一个可直接运行的 HTML 文件，内含 HTML/CSS/JS。
请使用 ECharts 绘制柱状图、折线图、饼状图。
页面要包含数据概览、三张图表和每张图的中文结论。
不要编造不存在的字段或数值，所有结论必须来自 Excel。
如果某类图表不适合，请在页面中说明原因并给出替代图表。

分别使用大模型：Gemini-3.5-Flash，DeepSeek-V4-Flash，DeepSeek-V4-Pro，GPT-5.5

选择Gemini-3.5-Flash：