黑客帝国要来!只要一张图,就能生成长达1分钟的游戏视频,谷歌最新AI模型相当惊艳

今日谷歌DeepMind发布Genie2,下面是我对此模型的一个基本分析。

这个模型如何玩呢?比较简单,我们只需要输入:

下面一张图+下面一段提示词:

image-20241205081039835

提示词:一个电脑游戏场景,展示了一个粗犷的石洞或矿洞内部。画面采用第三人称视角,镜头从主角后方稍高处俯视。主角是一名手持长剑的骑士,站在三座石砌的拱门前。第一座拱门后,可以看到隧道内生长着散发着荧光的绿色奇异植物,给人一种梦幻的感觉。第二座拱门通向一条长廊,洞壁上布满铆接的铁板,远处隐约透出一种不安的光芒。第三座拱门内是一段粗糙的石阶,蜿蜒向上通往未知的高处,增添了探索的神秘感。

然后模型就会输出下面三段交互视频,注意看:

很有意思!

通过键盘和鼠标我们可以操控游戏玩家通往哪个门:

比如通往第三座拱门:

图片

操控玩家进入第一座拱门:

图片

操控玩家进入第二座拱门:

图片

是的,太神奇了,要知道,只需要输入一张图+一段提示词,就能玩到这个高度!

不得不惊叹,这样多种交互效果。

那么,Genie2是个啥样子模型呢?

图片

Genie2 是 Google DeepMind 开发的先进AI模型,能够根据文本或图像提示生成可交互的 3D 虚拟世界。

接下来初步总结Genie2的最大三个特点:

第一,Genie2作为世界模型,能够多视角模拟物理世界。

证明它能够模拟物理世界,几个视频:

1)模拟不同角色、不同姿态的飞行:

图片

2)模拟物理世界的重力效果,仔细看,这效果确实够逼真:

图片

再看这个视频,模拟马起跳又受到重力下降的画面,真的足够逼真了:

图片

模拟物理世界的光源,注意看右下角,代表不同视角看世界:

图片

第二,Genie2不光能够生成视频,更加激动人心的是,它可以和人类交互,这个简直不能再友好了!

再上证据。如下所示,输入:打开每扇门的指令,使用Genie 2生成了一个包含两扇门(蓝色和红色)的3D环境。

接下来它就开始表演了,我们能通过键盘和鼠标来控制游戏角色,而Genie 2负责实时生成游戏画面:

图片

哪些视频可以证明其交互能力?

接着看。

能够通过箭头键,控制移动机器人,这个看起来容易,但是背后实现难度不小,模型需要计算出移动角色,而不是金字塔,

图片

也不是移动树木,而是通过箭头键移动角色:

图片

第三个最大特点,推断并生成一致的潜在动作,具备自主学习和环境理解能力。

看看下面的风吹草动:

图片

看看智能体间的相互建模和学习:

图片

图片

图片

以上,对于每个人类与Genie 2互动的demo,模型仅需要单张图片+提示词输入,

然后就生成了上面的交互视频。

在长达一分钟的时间里,Genie 2可以生成一个一致的世界,持续时间直接长达10-20秒!

生成一个一致的世界长达10-20秒,是很有挑战的。

接下来,任何人都可以用文字描述自己想要的世界,选择自己喜欢的图片,

然后进入这个新创建的世界,并且可以使用键盘和鼠标与之互动,

哇,真的amazing!

图片

难怪有网友留言,直呼:黑客帝国要来:

图片

AGI的到来,看来已经并不遥远了。

Genie 2 已经学了超过 20 万小时的未标注互联网视频,这是一个什么概念?

如果一个人每天坚持观看3小时的视频,完成20万小时的观看量,需要约:

183年

183年,我的天呢!Genie 2还真是个机器。

黑客帝国要来!只要一张图,就能生成长达1分钟的游戏视频,谷歌最新AI模型相当惊艳

https://zglg.work/ai-news/p202412051/

作者

AI免费学习网(郭震)

发布于

2024-12-05

更新于

2024-12-08

许可协议

分享转发

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论