2024-12-10发表2024-12-11更新AI / AI消息10 分钟读完 (大约1485个字)0次访问

字节要求攻击大模型的实习生赔偿800万

你好，我是郭震

Sora震撼上线，大模型继续狂飙。

通过公布的一些短视频，来看Sora的视频生成效果。

为了更加容易在公众号展示，把视频尺寸压缩为原来的1/3，大家可以看看效果：

以上5个Sora生成视频，因Sora是闭源的，具体的技术细节，无从得知，只能通过公布的技术框架，了解到：

Sora 可能基于GPT-4 多模态版本为基础模型，引入扩展模型（如扩散模型或基于时序卷积网络的生成模块），以支持视频帧的生成与序列化，通过 Transformer 的时间嵌入机制对视频帧间的时序关系进行建模。

文本到视频的生成通过一个联合的嵌入空间实现，将文本和视频的语义统一对齐。初步生成低分辨率的视频帧序列，使用超分辨率网络提升视频帧质量（如 Real-ESRGAN 模块）。

可能采用扩散去噪模型进行多帧生成的平滑优化，保证连续性。

更多视频生成的技术细节，我们不妨从上周发布的腾讯版Sora来一探究竟，腾讯开源了视频生成的代码，部署在下面两个平台：

同时也发布了技术report：

还能通过PC在线免费体验：

腾讯视频模型称为HunyuanVideo，简称混元视频模型。

根据官方介绍，模型拥有130亿参数，是目前开源领域内参数规模最大的文本生成视频模型。

先看腾讯版Sora生成的几个视频，同样为了兼容公众号文章，视频尺寸压缩为1/3：

因视频已被压缩，抛开清晰度，你能发现：Sora生成的5条视频，腾讯混元生成的这5条视频，有什么区别吗？

衡量文生视频好坏，最重要的三个核心指标是什么？如下所示：

最重要的指标，物理一致性，也就是视频动作是否符合真实物理世界，如重力效果；

第二，场景一致性，帧间是否连续，如布局、光线；

第三，视频是否准确传达了输入文本的核心语义。

下面我亲自实践下，腾讯混元视频模型效果，进入网站，输入这些文字：

中国古代盛唐的江南豫章美景：落霞与孤鹜齐飞，秋水共长天一色

然后点击右下角的按钮，就进入视频生成阶段：

步骤可以说是非常简单，做到了一句话生成视频。提示预计5分钟，实际大概2分钟左右就出来下面视频：

为了展示在公众号里，同样尺寸压缩为1/3后展示：

根据腾讯混元视频模型技术Report，混元计算资源远远小于闭源的Sora模型：

腾讯混元视频模型，目前在开源里面得分最高：

混元模型架构如下：

模型在时空压缩的潜在空间中训练，该空间通过因果3D VAE压缩。

文本提示通过大语言模型编码，并作为条件使用。

以高斯噪声和条件为输入，模型生成输出潜变量，并通过3D VAE解码器解码为图像或视频。

3D VAE压缩组件是核心技术之一，其架构如下所示：

上图中间小块，即为压缩后隐式表达。

另一个核心是文本编码组件：如下图右侧所示，腾讯提出了预训练多模态编码方法：

下面详细介绍了MLLM优势，包括：对齐能力强，图片细节处理和复杂推理强，指令跟随能力更强：

训练阶段，模型不基于预训练，而是完全从零开始训。损失函数另外引入了感知损失和对抗损失。训练策略是课程学习策略，从低到高分辨率：

推理阶段主要challenge，单GPU内存会爆。处理方法：采用时空平铺策略，将输入视频在空间和时间维度上分割成重叠的平铺块。每个平铺块分别进行编码/解码，输出结果再拼接在一起：

关于混元视频模型的scaling laws，会在接下来研究：

论文给出了更多生成视频图形展示：

更多有趣的应用，姿势跟随对齐：

多姿势和表情对齐：

字节要求攻击大模型的实习生赔偿800万

https://zglg.work/ai-news/p202412101/

作者

AI免费学习网(郭震)

发布于

2024-12-10

更新于

2024-12-11

许可协议

分享转发

学习下节

复习上节

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论