模型|继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

近年来，世界模型（World Model）在机器人、模拟与强化学习中均取得了出色的研究结果。
2018年，Jürgen Schmidhuber 与 David Ha 首次以无监督的方式训练世界模型，使模型能快速学习环境中的压缩时空表征，再将世界模型中的特征作为智能体的输入，训练出了一个非常压缩与简单的策略来解决模拟2D赛车等任务。
今年2月，Google AI 也用世界模型，在 Atari 游戏中实现了达到人类水平的表现。
但是，相比简单的游戏环境，现实的世界环境要复杂得多。
不久前，在发表于 ICCV 2021 的一篇工作（“Pathdreamer: A World Model for Indoor Navigation”）上，Google AI 团队提出了一个世界模型，叫作“Pathdreamer”，可以仅基于有限的种子观察与原先计划的导航路线，生成一幅智能体“肉眼”不可见的建筑物区域的、360o 高清摄像。

文章插图

论文链接：https://arxiv.org/pdf/2105.08756.pdf
Google AI的团队将Pathdreamer应用于机器人导航任务中，成功率高达50.4%！仅比ground truth设置低了 8.6%（59%）！

1、什么是世界模型？
世界模型（World Model）首次由 Jürgen Schmidhuber 与 David Ha 在 NeurIPS 2018中提出，主要出发点是打造一个通用强化学习环境的生成神经网络模型，为强化学习技术的落地提供完美的模拟环境。这篇工作入选了当年 NeurIPS 的 oral paper。

文章插图

论文地址：https://arxiv.org/pdf/1803.10122.pdf
世界模型的灵感来源于心理学上的“心理世界模型”（mental model of the world）。
在人对世界的理解过程中，我们往往是以有限的感官所能感知到的事物为基础，形成一个心理世界模型。我们所做的决定和行动都是基于这个模型。雷锋网
为了处理流经我们日常生活的大量信息，我们的大脑学会了信息的空间域和时域的抽象表示。我们能够观察一个场景并记住其中的抽象描述。雷锋网

文章插图

图注 / 世界模型示例，源自 Scott McCloud 的《理解漫画》一书
证据还表明，我们在任何时刻所感知的，都是由我们的大脑根据我们的内部心理模型对未来的预测所决定的。雷锋网
心理模型不仅仅是预测未来，而且会根据我们当前的运动行为来预测未来的感官数据。我们能够在这种预测模型上采取行动，并在我们面临危险时表现出快速的行为，而不需要有意识地规划一个行动路线。
以棒球为例，一个棒球运动员只有毫秒级的时间来决定如何挥动球棍，这个时间甚至比视觉信号从眼球传到大脑的时间还要短。对专业运动员来说，这个动作几乎是下意识的，他们的肌肉在正确的时间和地点挥动球棍，与他们内部模型的预测一致。他们可以根据他们对未来的预测迅速采取行动，而不需要有意识地推出可行的击球计划。

文章插图

在许多强化学习问题中，智能体既需要一个对过去和现在状态的良好描述，还需要一个优秀的模型来预测未来的状态。作为真实世界的一个表征，世界模型采用无监督的方式进行训练，能取得较好的策略。
2018年，当 Jürgen Schmidhuber 与 David Ha 提出世界模型后，他们将世界模型用于解决一个赛车竞速的强化学习任务。

文章插图

带有预测能力的世界模型可以有效地提取空域与时域特征，再将这些特征应用于控制模型，然后训练一个最小的控制模型来完成连续域控制任务，即赛车。