2024-12-05发表2024-12-08更新AI / AI消息9 分钟读完 (大约1290个字)0次访问

黑客帝国要来！只要一张图，就能生成长达1分钟的游戏视频，谷歌最新AI模型相当惊艳

今日谷歌DeepMind发布Genie2，下面是我对此模型的一个基本分析。

这个模型如何玩呢？比较简单，我们只需要输入：

下面一张图+下面一段提示词：

提示词：一个电脑游戏场景，展示了一个粗犷的石洞或矿洞内部。画面采用第三人称视角，镜头从主角后方稍高处俯视。主角是一名手持长剑的骑士，站在三座石砌的拱门前。第一座拱门后，可以看到隧道内生长着散发着荧光的绿色奇异植物，给人一种梦幻的感觉。第二座拱门通向一条长廊，洞壁上布满铆接的铁板，远处隐约透出一种不安的光芒。第三座拱门内是一段粗糙的石阶，蜿蜒向上通往未知的高处，增添了探索的神秘感。

然后模型就会输出下面三段交互视频，注意看：

很有意思！

通过键盘和鼠标我们可以操控游戏玩家通往哪个门：

比如通往第三座拱门：

操控玩家进入第一座拱门：

操控玩家进入第二座拱门：

是的，太神奇了，要知道，只需要输入一张图+一段提示词，就能玩到这个高度！

不得不惊叹，这样多种交互效果。

那么，Genie2是个啥样子模型呢？

Genie2 是 Google DeepMind 开发的先进AI模型，能够根据文本或图像提示生成可交互的 3D 虚拟世界。

接下来初步总结Genie2的最大三个特点：

第一，Genie2作为世界模型，能够多视角模拟物理世界。

证明它能够模拟物理世界，几个视频：

1）模拟不同角色、不同姿态的飞行：

2）模拟物理世界的重力效果，仔细看，这效果确实够逼真：

再看这个视频，模拟马起跳又受到重力下降的画面，真的足够逼真了：

模拟物理世界的光源，注意看右下角，代表不同视角看世界：

第二，Genie2不光能够生成视频，更加激动人心的是，它可以和人类交互，这个简直不能再友好了！

再上证据。如下所示，输入：打开每扇门的指令，使用Genie 2生成了一个包含两扇门（蓝色和红色）的3D环境。

接下来它就开始表演了，我们能通过键盘和鼠标来控制游戏角色，而Genie 2负责实时生成游戏画面：

哪些视频可以证明其交互能力？

接着看。

能够通过箭头键，控制移动机器人，这个看起来容易，但是背后实现难度不小，模型需要计算出移动角色，而不是金字塔，

也不是移动树木，而是通过箭头键移动角色：

第三个最大特点，推断并生成一致的潜在动作，具备自主学习和环境理解能力。

看看下面的风吹草动：

看看智能体间的相互建模和学习：

以上，对于每个人类与Genie 2互动的demo，模型仅需要单张图片+提示词输入，

然后就生成了上面的交互视频。

在长达一分钟的时间里，Genie 2可以生成一个一致的世界，持续时间直接长达10-20秒！

生成一个一致的世界长达10-20秒，是很有挑战的。

接下来，任何人都可以用文字描述自己想要的世界，选择自己喜欢的图片，

然后进入这个新创建的世界，并且可以使用键盘和鼠标与之互动，

哇，真的amazing！

难怪有网友留言，直呼：黑客帝国要来：

AGI的到来，看来已经并不遥远了。

Genie 2 已经学了超过 20 万小时的未标注互联网视频，这是一个什么概念？

如果一个人每天坚持观看3小时的视频，完成20万小时的观看量，需要约：

183年

183年，我的天呢！Genie 2还真是个机器。

黑客帝国要来！只要一张图，就能生成长达1分钟的游戏视频，谷歌最新AI模型相当惊艳

https://zglg.work/ai-news/p202412051/

作者

AI免费学习网(郭震)

发布于

2024-12-05

更新于

2024-12-08

许可协议

分享转发

学习下节

复习上节

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论