您的位置:首页 >科技 >正文

谷歌推出Genie一个可以帮助你生成视频游戏的人工智能平台

摘要 人工智能(AI)正在模糊想象与现实之间的界限。从 ChatGPT 到 Mid-Journey,我们已经了解了如何通过刺激我们的思维来创造任何东西。最近,...

人工智能(AI)正在模糊想象与现实之间的界限。从 ChatGPT 到 Mid-Journey,我们已经了解了如何通过刺激我们的思维来创造任何东西。最近,OpenAI 推出了 Sora,它提供了文本视频 AI 生成器。下一个是什么?好吧,现在谷歌的 DeepMind 团队推出了“Genie”——一种能够根据单个图像提示或文本描述创建交互式 2D 视频游戏的新模型。

简单来说,Google Genie 是一个生成互动视频游戏的 AI 平台。这个开创性的研究项目由 Google DeepMind 的开放式团队开发,为娱乐、游戏开发甚至机器人技术的未来带来了巨大的潜力。谷歌解释说,Genie 是一个“世界模型”,在 200,000 小时的未标记视频片段(主要来自 2D 平台游戏)的海量数据集上进行训练。与需要明确指令和标记数据的传统人工智能模型不同,Genie 通过观察这些视频中的动作和交互来学习,从而使其能够根据单个提示或图像生成视频游戏。

但这个人工智能精灵究竟是如何工作的呢?

乍一看,精灵可能看起来像是某种神奇的人工智能,能够将想象变成现实。然而,其基本过程相当复杂。让我用一个例子来解释一下: 。

因此,Genie 包含三个核心组件:

-- Video Tokenizer:将 Genie 想象为一位熟练的厨师正在准备一道复杂的菜肴。正如厨师将食材分解成更小的部分以便于处理一样,视频标记器可以有效地将大量视频数据处理为可管理的单元(称为“标记”)。这些标记是精灵理解视觉世界的基本构建块。

-- 潜在动作模型:在第二步中,在对标记化视频数据进行精细切割后,潜在动作模型占据了中心位置。它就像一位经验丰富的烹饪专家,仔细分析视频中连续帧之间的过渡。这种分析使其能够识别八种基本行为——精灵食谱中必不可少的“香料”。这些动作的范围可以从跳跃和奔跑到与游戏环境中的对象交互。

-- 动态模型:最后是动态模型的过程——将所有东西组合在一起的创意厨师。类似于厨师根据所选食材预测口味如何相互作用,该模型可以预测视频序列中的下一帧。它考虑了游戏世界的当前状态,包括玩家的动作(选择的“香料”),并相应地生成后续的视觉结果。这种连续的预测过程最终创造了一种互动且引人入胜的游戏体验的错觉。

值得注意的是,Genie 仍在开发中,并存在一些局限性,包括:

视觉质量有限:目前Genie只能以低帧率(1FPS)生成游戏,影响视觉保真度。

仅供研究使用:截至目前,Genie 尚未可供公众使用,仍然是 Google DeepMind 内的一个研究项目。

道德考虑:与任何强大的技术一样,需要仔细考虑 Genie 的潜在滥用情况。Google 正在致力于道德方面的工作,以确保负责任的开发和实施。

然而,一旦 Genie 发布,它将有望彻底改变众多领域的创造力。它能够以最少的输入生成交互式世界,这将为未来的娱乐、教育等领域带来令人兴奋的可能性打开大门。

版权声明:本文由用户上传,如有侵权请联系删除!