模型|继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？( 三 )

在具有高度不确定性的区域，比如拐角或视线以外的房间，可能会出现许多不同的场景。而Pathdreamer能够生成满足区域高度不确定的多样化结果。
有感于受到纽约大学Rob Fergus与Emily Denton提出的随机视频生成思想，Pathdreamer的结构生成器以噪音变量为条件，该变量表示指导图像中没有捕获的下一个导航位置的随机信息。通过对多个噪音变量进行采样，Pathdreamer可以合成多个不同场景，允许智能体在一条给定的导航路线中对多个合理的结果进行采样。
这些不同的输出不仅反映在第一阶段的输出（语义分割和深度图像）中，还反映在生成的 RGB 图像中。
如下图所示，最左侧的一列指导图像表示智能体先前看到的像素。其中，黑色像素表示智能体原先看不见的区域，对此，Pathdreamer 通过对多个随机噪声向量进行采样，生成了不同的图像输出。在实践中，当智能体在一个环境中定位导航时，它可以通过新的观察结果来生成输出图像。

文章插图

Pathdreamer 基于来自 Matterport3D 的图像和 3D 环境重建进行训练，并且能够合成逼真的图像与连续的视频序列。由于输出图像具有高分辨率和 360o 无死角的特征，现有的导航机器人可以轻松地将图像转换，以适应机器人配有的相机视野。

4、将Pathdreamer应用于视觉导航任务
他们将 Pathdreamer 应用于视觉与语言导航 (VLN) 任务，其中，机器人必须遵循自然语言的指令定位到真实 3D 环境中的某一个位置。他们使用 Room-to-Room（R2R）数据集进行了一项实验，让指令机器人在模拟多条可能的行走轨迹前进行规划，并根据导航指令对每一条轨迹进行排名，然后选择排名第一的轨迹进行导航。
实验考虑了三种设置：
1）地面实况（ground truth）设置：机器人通过与真实的环境互动（比如移动）来进行规划；
2）基线（Baseline）设置：机器人提前规划，无需与导航图交互、对建筑内的导航路线进行编码，但没有提供任何视觉观察；
3）Pathdreamer 设置：机器人提前规划，无需与导航图交互，且还能接收到Pathdreamer所生成的对应视觉观察。
在Pathdreamer设置中，机器人提前三步（大约6米）规划，导航成功率高达 50.4%，而基线设置的成功率只有 40.6%。这表明，Pathdreamer对现实室内环境中的有用、且可以访问的视觉、空间与语义知识进行了编码。
而在地面实况的设置中，机器人通过移动进行规划，导航成功率达到了 59%。不过，地面实况设置要求机器人花费大量的时间与资源进行多轨迹探索，在现实世界中的代价可能十分高昂。

文章插图

图注：VLN机器人在三种设置（地面实况、基线与Pathdreamer）中的表现
实验结果表明，类似 Pathdreamer 的世界模型在处理复杂的导航任务中具有出色表现。
参考链接：
1、https://ai.googleblog.com/2021/09/pathdreamer-world-model-for-indoor.html
2、https://ai.facebook.com/blog/near-perfect-point-goal-navigation-from-25-billion-frames-of-experience/
3、https://ai.googleblog.com/2021/04/model-based-rl-for-decentralized-multi.html
4、https://ai.googleblog.com/2020/03/introducing-dreamer-scalable.html
5、https://worldmodels.github.io/
6、https://ai.googleblog.com/2021/02/mastering-atari-with-discrete-world.html
7、https://bair.berkeley.edu/blog/2019/12/12/mbpo/
【模型|继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？】8、https://blog.csdn.net/hhy_csdn/article/details/88207977