郭震 AI公众号：郭震AI

AI 口播数字人生成教程：自动生成文案、语音、字幕和视频

发布日期: 2025-11-05

分类: AI消息

预计阅读: 6 分钟

你好，我是郭震

很多粉丝问我，如何做一个口播数字人的智能体，输入几个字，上传一个人物IP图像，自动生成选题，自动生成文案，生成人物语音，最后合成带有字幕+语音的视频。

今天这篇文章我来探讨一种对新手很友好的方式，不需要动手写代码，按照这篇文中教程，你也可以做一个口播数字人智能体：

让它体帮你从选题，文案生成，语音生成，视频，字幕整个过程一气呵成，感兴趣的朋友可以看看这篇。

相关阅读：更多工具选型可以看 AI 工具替代品与选型，想做自动化工作流可以继续看 Agent 工作流聚合页。

1 效果展示

咱们先看看生成的智能体效果，如下所示为口播数字人网站首页，这是我已经生成的口播视频，然后还可以点击网站右上角「创建新项目」，逐步就能生成一条口播视频：

基本3分钟就能完整生成一条口播视频，每步还支持可配置，如下图所示，输入主题，仅需几个字，然后会自动生成5个有热度的主题，然后智能体会自动生成选题的完整文案：

接下来，会支持选择四种人声，生成上面文案对应的声音：

支持口播视频背景选择，支持数字人物选择：

上传一张人像后，如下为生成的口播数字人视频截图：

视频可以一键下载，可以看下生成的数字人口播视频：

您的浏览器不支持 video 标签

以上口播数字人视频，和真人出镜录制效果差不多，挺不错的，制作这个口播数字人智能体，我使用的是MiniMax Agent，它接入了最新开源的MiniMax M2模型。

接下来，咱们先介绍下MiniMax M2，然后教大家如何使用接入了它的MiniMax Agent，做出的这个口播数字人视频网站。

2 MiniMax M2

MiniMax M2，已开源，如下所示：

现在开源 AI 社区引起了强烈反响，正是在社区里看到了M2后，第一时间上手做出了这个口播数字人网站。它被认为是目前表现最出色的开源 coding 模型 之一——在代码生成、任务理解与上下文衔接方面实现了真正的“丝滑体验”，如下图所示：

发布仅三天，M2 便在 OpenRouter 全球平台调用量排名第3，国内大模型调用排名第一：

已经跃升Hugging Face的Trending榜单第一：

它家这个模型与其他家相比，确实目前综合回复速度，处理复杂任务等综合能力名列前茅，超过Kimi K2，DeepSeek-V3.2，Gemini 2.5 Pro，在GAIA，FinSearchComp-global数据集名列第一：

更令人惊喜的是 M2 的性价比，它的调用价格仅为 Claude Sonnet 4.5 的 8%，但性能却直逼甚至超越部分闭源大模型。更重要的是，目前 MiniMax M2 正处于限时免费开放期，让更多个人开发者与创业团队可以零门槛体验顶级 AI 编程能力。

看了这些评估报告，所以决定使用MiniMax Agent来个实战，咱们走起。

3 MiniMax Agent开发实战

M2模型正处于免费开放期，这期间，接入M2的MiniMax Agent也免费开放，所以大家想用的可以按照下面教程，实战做一个口播数字人网站。

第一步，打开下面网址：

https://agent.minimax.io/

进入下面界面，选择Pro：

第二步，输入下面提示词，「帮我做一个前后端网站：输入文案主题，你负责生成选题，选择声音，等等，生成口播超级个体短视频，做一个这样的web网站，带有前后端」：

接下来MiniMax Agent开始工作，生成的网站不仅有前端，还会自动生成后端，包括数据库表都会自动创建：

并且它家的这个智能体思考速度，如下所时间基本都在一两秒，即便创建测试脚本test-progress.md，也就耗时3秒钟：

这个智能体思考速度真的非常快，以上思考速度比当前编码最强的Claude4.5都要迅猛。

MiniMax Agent不仅能同时写前端和后端的代码文件，还能全自动生成测试脚本等，如下图所示，自动帮我们做测试：

这就从理解需求，思考计划步骤，数据库表，前端，后端，自动化测试，全链路完成了开发闭环，不愧是全能全栈智能体。

第三步，过一会全部生成完成后，它会自动发布一个网站链接，如下图所示：

你看它家的这个智能体把文案，选题，语音生成，视频生成，这种多模态复杂任务，全部搞定了。进一步表明接入了M2的MiniMax Agent，在多模态开发协作与反馈中的能力，真的超强。

但此时我还没有配置API Key，所以在生成语音和视频时，会提示我输入Key，如下图所示，这个该如何解决呢？

也不复杂，打开supabase后台，依次点击Edge Functions，再点击MiniMax_API_Key，输入其API Key就可以了：

以上API Key配置好后，再生成语音和视频时就没问题了，此时它给我们生成的网站默认是浅色模式，咱们让它调整为暗黑模式，一句话告诉它：

思考只用了1.23秒，调整所有代码文件中的所有样式，到最后整个网站调整为暗黑模式，只耗时5秒钟，这调整速度，太丝滑了！如下打开后出现登录窗口，整个模式变为暗黑

接下来就像文章开头所示，输入主题，选择选题，生成脚本，选择声音，比如走到这步，选择女声-活力：

支持人物IP选择，任意直接上传一张图片就可以：

生成口播视频需要等待一回，大概1-2分钟后，视频就生成好了：

视频文件：

您的浏览器不支持 video 标签

以上就是MiniMax Agent生成口播数字人视频网站的完整步骤，现在免费使用，感兴趣的可以根据文中步骤试试。

最后总结一下

过去做一条口播视频，需要脚本编写、录音、剪辑制作等多个环节；而现在借助接入M2的 MiniMax Agent，这一切都能自动完成。

只需输入一个主题，它就能帮你从选题、文案、语音到视频合成，全流程一气呵成。对于没有编程经验的新手，这意味着你也能在几分钟内搭建一个属于自己的智能口播系统。

从代码生成到多模态创作，M2速度快、理解准，还能稳定完成端到端的任务。无论是生成完整的网站，还是协作处理复杂逻辑，都体现出强大的推理与执行能力。

更重要的是，它目前全球限时免费，想体验的小伙伴可以根据文中步骤去试下。

常见问题

AI 口播数字人生成教程：自动生成文案、语音、字幕和视频测了什么？

看 AI消息的实际效果、使用门槛和结果表现。

AI 口播数字人生成教程：自动生成文案、语音、字幕和视频适合谁看？

适合正在选工具、做本地部署或验证 AI 工作流的人。

AI 口播数字人生成教程：自动生成文案、语音、字幕和视频要注意什么？

重点看配置成本、失败点、数据边界和可替代方案。

相关内容

更多相关文章

继续这个系列又一个开源王炸！是个全能AI，语音对话几乎零延时，确实太赞了！AI 最新技术 · 第 56 篇 · 图文内容 · 2.2k 字最新 AI 实测终于找到个全能视频 Agent：选个 Skill，说句话，成片就出来了！AI 消息与实测 · 第 128 篇 · 图文内容模型怎么选郭震 AI 综合加权榜按写作、代码、行业、研究和本地部署场景看模型。找可用工具AI 工具库与替代品按真实用途找工具、替代品、成本计算器和模型选择器。

Reader Messages

读者留言

有问题、补充资料或实测结果，可以直接留下。这里不需要登录。

最多 800 字

留言列表

0 条

正在加载留言...