MiniMax 正式发布 M3 多模态 MoE 模型，支持图像转文本与 Agent 能力

MiniMax 于 Hugging Face 正式发布了其 M3 系列模型，这是一款支持 image-text-to-text 管线的多模态混合专家（MoE）模型。模型发布后迅速获得社区关注，目前下载量已超过 19.2 万次，获得 1271 个点赞。

发布时间2026年7月1日 12:36（北京时间）

7月1日，MiniMax 在 Hugging Face 上正式发布了其最新模型 MiniMax-M3，引发开源社区广泛关注。该模型采用 image-text-to-text 管线，能够处理图像与文本之间的多模态转换任务，基于 transformers 库构建，并以 safetensors 格式发布。

根据 Hugging Face 模型卡信息，MiniMax-M3 被标记为多模态（multimodal）和混合专家（MoE）架构的模型，同时集成了 Agent 与编程（coding）相关能力。这意味着 M3 不仅能完成图像理解与文本生成任务，还可能具备一定的自主推理和工具调用能力。

截至发稿时，该模型在 Hugging Face 上已获得超过 19.2 万次下载和 1271 个点赞，说明社区对其关注度相当高。MiniMax 此前已经在国内大模型赛道积累了相当的影响力，M3 的发布是其向多模态方向进一步拓展的重要一步。

MiniMax 正式发布 M3 多模态 MoE 模型，支持图像转文本与 Agent 能力 — 图源: huggingface.co

从技术栈来看，MiniMax-M3 使用 Hugging Face Transformers 作为底层框架，这降低了开发者集成和二次开发的门槛。safetensors 格式的采用也意味着模型权重加载更安全、更高效。

M3 的 MoE（混合专家）架构值得关注。MoE 架构在保持模型容量的同时，通过稀疏激活机制显著降低推理成本，已成为当前大模型领域的主流技术路线之一。MiniMax 在 M3 上采用这一架构，表明其在大规模模型部署效率方面的考量。

值得注意的是，该模型标签中出现了 Agent 和 Coding 关键词。虽然目前模型卡尚未公布详细的基准测试成绩，但这一标签暗示 MiniMax 可能在 M3 上进行了面向智能体和编程任务的定向优化，这为后续的社区评测和开发应用留下了想象空间。

对于开发者而言，MiniMax-M3 提供了一个可以直接从 Hugging Face 下载使用的多模态模型选择。结合 transformers 生态，集成到现有项目中的成本相对较低。社区的进一步评测将帮助我们了解该模型在实际任务中相比竞品的真实表现。

MiniMax 正式发布 M3 多模态 MoE 模型，支持图像转文本与 Agent 能力

附近消息

MiniMax 正式发布 M3 多模态模型系列，含基础版与量化版

法国完成首笔 AI Agent 自主支付交易，FinTech 领域迈出标志性一步

GSMA Intelligence发布Agentic Core白皮书，定义智能体化核心网演进新范式

Om AI联汇发布VLX：全球首个面向物理世界的端侧流式多模态模型