告别CPU，加速100-1000倍！只用GPU就能完成物理模拟和强化学习训练( 三 )

人形物体（Humanoid）

文章图片
仿人环境有更多的自由度，需要智能体发现用两只脚保持平衡并在地面上行走的步态。从图4和图5可以看出，与图3中的蚂蚁相比，训练时间增加了一个数量级。

文章图片
图4：人形实验的奖励和有效FPS与并行环境的数量有关。最佳训练时间是在4096个环境和32个horizonlength的情况下实现的。

文章图片
图5：人形实验的奖励和有效FPS与平行环境的数量有关。在4096和8192个环境中实现了最佳训练时间， horizonlength分别为64和32 。
研究人员在图中4还注意到，随着智能体数量的增加，从256个增加到4096个，达到最高奖励7000的训练时间从10^4秒（约2.7小时）减少到10^3秒（约17分钟）的数量级。然而，奖励为5000左右时，高性能运动出现了，训练时间仅为4分钟。在这种情况下，如果超过4096个环境，就不会有进一步的收益，实际上会导致训练时间的增加和收敛于次优步态。研究人员将此归因于环境的复杂性，这使得在如此小的horizonlength上学习行走具有挑战性。
可以通过对另一组环境和horizonlength的组合进行训练来验证这一点，与图4相比， horizonlength增加了2倍。如图5所示，即使在8192和16384环境中，人形机器人也能行走，这两个环境的horizonlength分别为32和16 ，但足够长，可以进行学习。
另外值得注意的是，由于自由度的增加，每秒并行环境步骤的数量从蚂蚁的700K减少到人形的200K ，如图4和5所示。
影子手（ShadowHand）

文章图片

文章图片
图6：ShadowHand实验的奖励和有效FPS与并行环境的数量有关。在8192和16384个环境以及16和8个horizonlength的情况下，达到最佳训练时间。
最后，研究人员用影子手进行实验，让它学习用手指和手腕将放在手掌上的立方体旋转到目标方向。受所涉及的DoF数量和旋转过程中的接触影响，这项任务具有不小的挑战。我们在''影子手''环境中的结果也遵循类似的趋势。随着智能体数量的增加，在这种情况下，从256增加到16384 ，训练时间减少了一个数量级，从5×10^4秒（约14小时）到3×10^3秒（约1小时）。我们发现，该环境在短短5分钟内就达到了连续10次成功的奖励的灵巧性能。此外， 16384个智能体的horizonlength为8 ，仍然允许学习重新摆放立方体。 16384个智能体的最大有效帧率为每秒150K个并行环境步骤。

文章图片
图7：运动环境和相应的奖励曲线

文章图片

文章图片
图8：在模拟和真实机器人上测试的粗糙地形上的ANYmal的训练策略

文章图片
图9：使用AMP训练的仿人角色模仿旋风踢的动作

文章图片
图10：FrankaCube堆叠环境和相应的奖励曲线

文章图片
图11：在IsaacGym中实现的三种手内操纵环境：ShadowHand,Trifinger和Allegro