模型|继LSTM之父用世界模型来模拟2D赛车后,谷歌又推出全新世界模型助力导航:360度无死角,就问你怕了没?
近年来,世界模型(World Model)在机器人、模拟与强化学习中均取得了出色的研究结果。
2018年,Jürgen Schmidhuber 与 David Ha 首次以无监督的方式训练世界模型,使模型能快速学习环境中的压缩时空表征,再将世界模型中的特征作为智能体的输入,训练出了一个非常压缩与简单的策略来解决模拟2D赛车等任务。
今年2月,Google AI 也用世界模型,在 Atari 游戏中实现了达到人类水平的表现。
但是,相比简单的游戏环境,现实的世界环境要复杂得多。
不久前,在发表于 ICCV 2021 的一篇工作(“Pathdreamer: A World Model for Indoor Navigation”)上,Google AI 团队提出了一个世界模型,叫作“Pathdreamer”,可以仅基于有限的种子观察与原先计划的导航路线,生成一幅智能体“肉眼”不可见的建筑物区域的、360o 高清摄像。
文章插图
论文链接:https://arxiv.org/pdf/2105.08756.pdf
Google AI的团队将Pathdreamer应用于机器人导航任务中,成功率高达50.4%!仅比ground truth设置低了 8.6%(59%)!
1、什么是世界模型?
世界模型(World Model)首次由 Jürgen Schmidhuber 与 David Ha 在 NeurIPS 2018中提出,主要出发点是打造一个通用强化学习环境的生成神经网络模型,为强化学习技术的落地提供完美的模拟环境。这篇工作入选了当年 NeurIPS 的 oral paper。
文章插图
论文地址:https://arxiv.org/pdf/1803.10122.pdf
世界模型的灵感来源于心理学上的“心理世界模型”(mental model of the world)。
在人对世界的理解过程中,我们往往是以有限的感官所能感知到的事物为基础,形成一个心理世界模型。我们所做的决定和行动都是基于这个模型。雷锋网
为了处理流经我们日常生活的大量信息,我们的大脑学会了信息的空间域和时域的抽象表示。我们能够观察一个场景并记住其中的抽象描述。雷锋网
文章插图
图注 / 世界模型示例,源自 Scott McCloud 的《理解漫画》一书
证据还表明,我们在任何时刻所感知的,都是由我们的大脑根据我们的内部心理模型对未来的预测所决定的。雷锋网
心理模型不仅仅是预测未来,而且会根据我们当前的运动行为来预测未来的感官数据。我们能够在这种预测模型上采取行动,并在我们面临危险时表现出快速的行为,而不需要有意识地规划一个行动路线。
以棒球为例,一个棒球运动员只有毫秒级的时间来决定如何挥动球棍,这个时间甚至比视觉信号从眼球传到大脑的时间还要短。对专业运动员来说,这个动作几乎是下意识的,他们的肌肉在正确的时间和地点挥动球棍,与他们内部模型的预测一致。他们可以根据他们对未来的预测迅速采取行动,而不需要有意识地推出可行的击球计划。
文章插图
在许多强化学习问题中,智能体既需要一个对过去和现在状态的良好描述,还需要一个优秀的模型来预测未来的状态。作为真实世界的一个表征,世界模型采用无监督的方式进行训练,能取得较好的策略。
2018年,当 Jürgen Schmidhuber 与 David Ha 提出世界模型后,他们将世界模型用于解决一个赛车竞速的强化学习任务。
文章插图
带有预测能力的世界模型可以有效地提取空域与时域特征,再将这些特征应用于控制模型,然后训练一个最小的控制模型来完成连续域控制任务,即赛车。
- Java|Gamamobi CEO黄继德:我们的元宇宙游戏不担心体验落差
- 继华为nova10系列线下物料曝光后|华为nova 10真机上手图曝光:后摄神似“双星伴月”
- 联想|手机黑马真我GT2大师探索版 继小米12Ultra骁龙8gen1plus首发机型
- 显示器|刹不住车?爆腾讯下半年将继续大规模裁员
- 抖音|信号继电器如何分类? 信号继电器的工作原理及作用
- 5G|狂欢继续 嗨购不停 6月购三星Galaxy S21 FE 5G享好礼
- 奥拓电子|刹不住车?爆腾讯下半年将继续大规模裁员
- 从几个月到几分钟,NLP模型运行效率暴涨,小公司也能玩大模型
- 腾讯文档|从事展览3d模型设计,你需要具备那些能力?---模大狮网
- 电动自行车|iPhone14今年屏幕需求或超2.05亿块,京东方继续供货
