告别CPU,加速100-1000倍!只用GPU就能完成物理模拟和强化学习训练( 三 )
人形物体(Humanoid)
文章图片
仿人环境有更多的自由度 , 需要智能体发现用两只脚保持平衡并在地面上行走的步态 。 从图4和图5可以看出 , 与图3中的蚂蚁相比 , 训练时间增加了一个数量级 。 
文章图片
图4:人形实验的奖励和有效FPS与并行环境的数量有关 。 最佳训练时间是在4096个环境和32个horizonlength的情况下实现的 。 
文章图片
图5:人形实验的奖励和有效FPS与平行环境的数量有关 。 在4096和8192个环境中实现了最佳训练时间 , horizonlength分别为64和32 。
研究人员在图中4还注意到 , 随着智能体数量的增加 , 从256个增加到4096个 , 达到最高奖励7000的训练时间从10^4秒(约2.7小时)减少到10^3秒(约17分钟)的数量级 。 然而 , 奖励为5000左右时 , 高性能运动出现了 , 训练时间仅为4分钟 。 在这种情况下 , 如果超过4096个环境 , 就不会有进一步的收益 , 实际上会导致训练时间的增加和收敛于次优步态 。 研究人员将此归因于环境的复杂性 , 这使得在如此小的horizonlength上学习行走具有挑战性 。
可以通过对另一组环境和horizonlength的组合进行训练来验证这一点 , 与图4相比 , horizonlength增加了2倍 。 如图5所示 , 即使在8192和16384环境中 , 人形机器人也能行走 , 这两个环境的horizonlength分别为32和16 , 但足够长 , 可以进行学习 。
另外值得注意的是 , 由于自由度的增加 , 每秒并行环境步骤的数量从蚂蚁的700K减少到人形的200K , 如图4和5所示 。
影子手(ShadowHand)
文章图片
文章图片
图6:ShadowHand实验的奖励和有效FPS与并行环境的数量有关 。 在8192和16384个环境以及16和8个horizonlength的情况下 , 达到最佳训练时间 。
最后 , 研究人员用影子手进行实验 , 让它学习用手指和手腕将放在手掌上的立方体旋转到目标方向 。 受所涉及的DoF数量和旋转过程中的接触影响 , 这项任务具有不小的挑战 。 我们在''影子手''环境中的结果也遵循类似的趋势 。 随着智能体数量的增加 , 在这种情况下 , 从256增加到16384 , 训练时间减少了一个数量级 , 从5×10^4秒(约14小时)到3×10^3秒(约1小时) 。 我们发现 , 该环境在短短5分钟内就达到了连续10次成功的奖励的灵巧性能 。 此外 , 16384个智能体的horizonlength为8 , 仍然允许学习重新摆放立方体 。 16384个智能体的最大有效帧率为每秒150K个并行环境步骤 。 
文章图片
图7:运动环境和相应的奖励曲线
文章图片
文章图片
图8:在模拟和真实机器人上测试的粗糙地形上的ANYmal的训练策略
文章图片
图9:使用AMP训练的仿人角色模仿旋风踢的动作
文章图片
图10:FrankaCube堆叠环境和相应的奖励曲线
文章图片
图11:在IsaacGym中实现的三种手内操纵环境:ShadowHand,Trifinger和Allegro
- 套餐资费|广电放号 5G套餐竞争告别“三国时代”
- 物体做曲线运动时法向加速度有可能为0吗?
- CPU|什么叫重新将商品权重补起来?为啥补单没效果?
- 国产x86 CPU兆芯有了ITX迷你主板:最高八核2.7GH
- 本周|对标高通骁龙8+ 天玑9000+旗舰已在路上:安卓阵营CPU
- CPU|戴尔这款微型台式机只有1.1L体积,配6核处理器,售价3999元
- 世界智能大会|AMD7000系列V-CacheCPU与可能达到6GHz的Intel第13代抗衡
- 搭载了4680电池的特斯拉Model Y将无法获得加速提升功能
- 路由器|TP-LINK不公布路由器CPU、内存等硬件参数的原因
- 6月24日消息|“美国队长”发文告别iphone6s:想念home键
