AI模型学会了玩《我的世界》:砍树、造箱子、制作石镐样样不差

发布时间:2024-06-09 20:20:08 浏览量:364次

AI“学会”了在《我的世界》中玩耍:砍树、制作箱子、打造石镐样样在行

《我的世界》里,玩家不一定都是人类,现在 AI 也会玩了。

《我的世界》是全球知名度最高的开放世界游戏。小朋友只需观看十分钟的教学视频,就能学会在游戏中寻找稀有的钻石,但这却是 AI 此前无法企及的高度。

今天 OpenAI 的研究团队宣布他们开发了一种能玩《我的世界》的智能体,其中使用《我的世界》游戏大量未标记视频数据集训练神经网络,仅使用少量标记数据。

论文地址:点击咨询

我们先来看下效果,模型建造一个简陋的木制避难所:

制作石镐

VPT 方法

互联网包含大量可供我们学习的公开视频,例如游戏玩家演示游戏玩法,《我的世界》玩家建造一个错综复杂的房子。然而这些视频只提供了事情发生的记录,而不是确切的实现方式,即没有说明鼠标移动和按键的确切顺序。

相比于 OpenAI 的大型语言模型,要在视频游戏等更通用领域构建大型基础模型(foundation model),缺乏动作标签带来了新的挑战。

为了利用互联网上可用的大量未标记视频数据,该研究提出了一种新颖但简单的半监督模仿学习方法:视频预训练(VPT)。

该研究首先从游戏商家那里收集了一个小型数据集,其中不仅记录了玩游戏的视频,还记录了玩家采取的行动,即按键和鼠标的移动。利用这些数据,该研究训练了一个逆动力学模型 (IDM),以预测视频中每个步骤所采取的动作。重要的是,IDM 可以使用过去和未来的信息来猜测每一步动作。与仅给定过去视频帧预测动作的行为克隆任务相比,这种任务要容易得多,需要的数据也要少得多。然后该研究使用经过训练的 IDM 来标记更大的在线视频数据集,并通过行为克隆来学习行动。

VPT 零样本结果

该研究选择《我的世界》这个游戏中验证了所提方法,因为它 (1) 是世界上最流行的视频游戏之一,拥有大量可免费获得的视频数据,并且 (2) 是开放式的,可以提供各种各样的行为动作,类似于现实世界的应用程序(如计算机使用)。与之前的工作在《我的世界》中使用简化动作空间不同,OpenAI 的新模型使用更普遍适用、难度也更大的原生人机界面:鼠标和键盘使用 20Hz 帧率。

该研究的行为克隆模型(VPT 基础模型)使用 70000 小时的 IDM 标记在线视频进行训练,在《我的世界》中完成了强化学习几乎不可能实现的任务。新模型学会了砍树收集原木,将原木制作成木板,然后将木板制作成箱子;这个行为序列对于《我的世界》高级玩家在约 50 秒内执行 1000 个连续的游戏动作。

《我的世界》制作箱子过程中每一步所需的动作数目和时间。

此外,该模型还可以执行人类在游戏中经常执行的其他复杂技能,例如游泳、狩猎动物、食用食物以及一些《我的世界》专用技能。

游泳。

狩猎。

食用食物。

VPT 让智能体通过观看互联网上的大量视频就可以进行学习铺平了道路。与只会产生表征先验的生成视频建模或对比方法相比,VPT 提供了在更多领域可以直接学习大规模行为先验的可能性,而不仅仅是语言。

此外,该研究还开源了数据、《我的世界》所需环境、模型代码、模型权重,他们希望这些开源有助于未来 VPT 的研究。

原文链接:点击咨询

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定