又一个开源王炸!使用它,直接生成AI口播数字人,真的太赞了!
你好,我是郭震
很多粉丝问我,如何做一个口播数字人的智能体,输入几个字,上传一个人物IP图像,自动生成选题,自动生成文案,生成人物语音,最后合成带有字幕+语音的视频。
今天这篇文章我来探讨一种对新手很友好的方式,不需要动手写代码,按照这篇文中教程,你也可以做一个口播数字人智能体:
让它体帮你从选题,文案生成,语音生成,视频,字幕整个过程一气呵成,感兴趣的朋友可以看看这篇。
1 效果展示
咱们先看看生成的智能体效果,如下所示为口播数字人网站首页,这是我已经生成的口播视频,然后还可以点击网站右上角「创建新项目」,逐步就能生成一条口播视频:

基本3分钟就能完整生成一条口播视频,每步还支持可配置,如下图所示,输入主题,仅需几个字,然后会自动生成5个有热度的主题,然后智能体会自动生成选题的完整文案:

接下来,会支持选择四种人声,生成上面文案对应的声音:

支持口播视频背景选择,支持数字人物选择:

上传一张人像后,如下为生成的口播数字人视频截图:

视频可以一键下载,可以看下生成的数字人口播视频:
您的浏览器不支持 video 标签
以上口播数字人视频,和真人出镜录制效果差不多,挺不错的,制作这个口播数字人智能体,我使用的是MiniMax Agent,它接入了最新开源的MiniMax M2模型。
接下来,咱们先介绍下MiniMax M2,然后教大家如何使用接入了它的MiniMax Agent,做出的这个口播数字人视频网站。
2 MiniMax M2
MiniMax M2,已开源,如下所示:

现在开源 AI 社区引起了强烈反响,正是在社区里看到了M2后,第一时间上手做出了这个口播数字人网站。它被认为是目前表现最出色的开源 coding 模型 之一——在代码生成、任务理解与上下文衔接方面实现了真正的“丝滑体验”,如下图所示:

发布仅三天,M2 便在 OpenRouter 全球平台调用量排名第3,国内大模型调用排名第一:

已经跃升Hugging Face的Trending榜单第一:

它家这个模型与其他家相比,确实目前综合回复速度,处理复杂任务等综合能力名列前茅,超过Kimi K2,DeepSeek-V3.2,Gemini 2.5 Pro,在GAIA,FinSearchComp-global数据集名列第一:

更令人惊喜的是 M2 的性价比,它的调用价格仅为 Claude Sonnet 4.5 的 8%,但性能却直逼甚至超越部分闭源大模型。更重要的是,目前 MiniMax M2 正处于限时免费开放期,让更多个人开发者与创业团队可以零门槛体验顶级 AI 编程能力。
看了这些评估报告,所以决定使用MiniMax Agent来个实战,咱们走起。
3 *MiniMax Agent**开发实战*
M2模型正处于免费开放期,这期间,接入M2的MiniMax Agent也免费开放,所以大家想用的可以按照下面教程,实战做一个口播数字人网站。
第一步,打开下面网址:
进入下面界面,选择Pro:

第二步,输入下面提示词,「帮我做一个前后端网站:输入文案主题,你负责生成选题,选择声音,等等,生成口播超级个体短视频,做一个这样的web网站,带有前后端」:
接下来MiniMax Agent开始工作,生成的网站不仅有前端,还会自动生成后端,包括数据库表都会自动创建:

并且它家的这个智能体思考速度,如下所时间基本都在一两秒,即便创建测试脚本test-progress.md,也就耗时3秒钟:

这个智能体思考速度真的非常快,以上思考速度比当前编码最强的Claude4.5都要迅猛。
MiniMax Agent不仅能同时写前端和后端的代码文件,还能全自动生成测试脚本等,如下图所示,自动帮我们做测试:

这就从理解需求,思考计划步骤,数据库表,前端,后端,自动化测试,全链路完成了开发闭环,不愧是全能全栈智能体。
第三步,过一会全部生成完成后,它会自动发布一个网站链接,如下图所示:

你看它家的这个智能体把文案,选题,语音生成,视频生成,这种多模态复杂任务,全部搞定了。进一步表明接入了M2的MiniMax Agent,在多模态开发协作与反馈中的能力,真的超强。
但此时我还没有配置API Key,所以在生成语音和视频时,会提示我输入Key,如下图所示,这个该如何解决呢?

也不复杂,打开supabase后台,依次点击Edge Functions,再点击MiniMax_API_Key,输入其API Key就可以了:

以上API Key配置好后,再生成语音和视频时就没问题了,此时它给我们生成的网站默认是浅色模式,咱们让它调整为暗黑模式,一句话告诉它:

思考只用了1.23秒,调整所有代码文件中的所有样式,到最后整个网站调整为暗黑模式,只耗时5秒钟,这调整速度,太丝滑了!如下打开后出现登录窗口,整个模式变为暗黑
接下来就像文章开头所示,输入主题,选择选题,生成脚本,选择声音,比如走到这步,选择女声-活力:

支持人物IP选择,任意直接上传一张图片就可以:

生成口播视频需要等待一回,大概1-2分钟后,视频就生成好了:

视频文件:
您的浏览器不支持 video 标签
以上就是MiniMax Agent生成口播数字人视频网站的完整步骤,现在免费使用,感兴趣的可以根据文中步骤试试。
最后总结一下
过去做一条口播视频,需要脚本编写、录音、剪辑制作等多个环节;而现在借助接入M2的 MiniMax Agent,这一切都能自动完成。
只需输入一个主题,它就能帮你从选题、文案、语音到视频合成,全流程一气呵成。对于没有编程经验的新手,这意味着你也能在几分钟内搭建一个属于自己的智能口播系统。
从代码生成到多模态创作,M2速度快、理解准,还能稳定完成端到端的任务。无论是生成完整的网站,还是协作处理复杂逻辑,都体现出强大的推理与执行能力。
更重要的是,它目前全球限时免费,想体验的小伙伴可以根据文中步骤去试下。
