上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练
机器之心专栏
作者:上海交大和UCL多智能体强化学习研究团队
基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸、王者荣耀等游戏AI上已经得到成功验证 , MALib则是首个专门面向PB-MARL的开源大规模并行训练框架 。 MALib支持丰富的种群训练方式(例如 , self-play,PSRO,leaguetraining) , 并且实现和优化了常见多智能体深度强化学习算法 , 为研究人员降低并行化工作量的同时 , 大幅提升了训练效率 。 此外 , MALib基于Ray的底层分布式框架 , 实现了全新的中心化任务分发模型 , 相较于常见的多智能体强化学习训练框架(RLlib , PyMARL , OpenSpiel) , 相同硬件条件下吞吐量和训练速度有着数倍的提升 。 现阶段 , MALib已对接常见多智能体环境(星际争霸、谷歌足球、棋牌类、多人Atari等) , 后续将进一步提供对自动驾驶、智能电网等场景的支持 。
项目主页:https://malib.io 。 
文章图片
在深度学习领域 , 算力从来都是我们关心的一个重点 , 也是影响人工智能算法落地的一个关键因素 。 在很多应用场景里面 , 足够的算力支持可以显著加快算法从提出、训练到落地的效率 , 像是OpenAIFive的亿级参数量的使用 , 其每天的GPU计算用量在770±50~820±50PFlops/s 。 而在深度强化学习领域 , 随着应用场景从单智能体扩展到多智能体 , 算法的求解复杂度也呈现指数级增长 , 这也对算力要求提出了新的挑战 , 要求更多的计算资源能够被调用 。 特别是当所要处理的问题规模 , 涉及的智能体数量较多时 , 单机训练算法的可行度显著下降 。
多智能体强化学习要解决群体智能相关的问题 , 其研究往往涉及群体内智能体之间的协作与对抗 。 目前已有众多现实任务应用涉及大规模智能体和复杂多样化交互 , 例如人群模拟、自动驾驶以及军事场景中的无人机集群控制:
文章图片
人群模拟(http://gamma.cs.unc.edu/CompAgent/imgs/sitterson3.jpg) 。 
文章图片
自动驾驶(https://github.com/huawei-noah/SMARTS/blob/master/docs/_static/smarts_envision.gif) 。 
文章图片
无人机集群(https://defensesystems.com/-/media/GIG/Defense-Systems/Web/2015/JanFeb/CODEdrones.png) 。
在算法方面 , 解决此类群体问题的一个重要的途径是基于群体的多智能体强化学习方法 , 也是MALib目前阶段的重点瞄准方向 。 基于群体的多智能体强化学习(Population-basedMARL,PB-MARL)涉及多个策略集合交互问题 , 下图展示了通常意义上基于群体的多智能体强化学习算法的主要流程 。 PB-MARL算法是结合了深度强化学习和动态种群选择方法(例如 , 博弈论 , 进化策略)以自动拓展策略集 。 PB-MARL能够以此不断产生新的智能 , 因而在一些复杂任务上都取得了不错的效果 , 如实时决策游戏Dota2、StrarCraftII , 以及纸牌任务LeducPoker 。 但在实际问题中 , 目前的多智能体强化学习算法与应用尚有差距 , 一个亟待解决的问题便是算法在大规模场景下的训练效率 。 由于种群算法内在耦合了多智能体算法 , 致使其训练过程对数据的需求量极大 , 因而也需要一个灵活、可扩展的训练框架来保证其有效性 。 
文章图片
如何提高算法训练效率?对于依赖深度学习技术的很多领域 , 在面临任务规模变大 , 模型参数变多的情况下 , 都需要引入额外的技术来提高训练效率 。 分布式计算是一个最直接考虑的方法 , 通过多进程或者多机的方式 , 提高算法对计算资源的使用效率从而提升算法训练效率 。 而分布式技术在深度强化学习领域的应用 , 也催生了分布式深度强化学习这个领域的产生 , 其研究的重点包括计算框架的设计 , 以及大规模分布式强化学习算法的开发 。
- 开源软件|Web3能拯救失落的互联网人吗?
- 上海交大团队研发单结有机太阳能电池,单结器件效率达19.6%
- 开源软件|嵌入式开发:技巧和窍门——引导加载程序跳转到应用程序代码
- 删库跑路、“投毒”、改协议,开源有哪几大红线千万不能踩?
- 开源软件|广州蓝景技术分享 — 前端新手入门必学知识
- 整整一年前的今天|AMD FSR 2.0技术正式开源!NVIDIA、Intel
- NASA模拟火星生存训练,6位参与实验的科学家,结束后崩溃了
- AMD|AMD FSR 2.0技术正式开源!NVIDIA、Intel随便用
- Copilot免费时代结束!正式版67元/月,学生和热门开源项目可白嫖
- 小米科技|小米手环7上手评测:120种训练模式+15天电池,售价却249元,真香
