上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练( 三 )


上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练
文章图片
中心化任务调度模型(c)与以往分布式强化学习框架调度模型的对比:(a)完全分布式;(b)层级式
具体而言 , MALib的框架特点如下:
支持大规模基于种群的多智能体强化训练 。 星际争霸2 , Dota2 , 王者荣耀等游戏上超越人类顶尖水平的AI , 都得益于大规模基于种群的多智能体强化学习训练 , 但现在没有一个开源通用的框架支持相关研究与应用 。 针对这一场景 , MALib基于Ray的分布式执行框架 , 实现了一个灵活可自定义的多智能体强化学习并行训练框架 , 并且对基于种群的训练做了特别优化 , 不仅仅可以实现类似于星际争霸2中的League机制 , 也支持更灵活的PSRO(策略空间应对预言机)等算法 。 同时 , 除了电子竞技游戏之外 , MALib也将提供体育(GoogleFootball) , 自动驾驶等场景的支持 。 MALib的采样吞吐量较现有多智能体强化学习框架大幅度提升 。 通过利用所提出的中心化任务分发模型 , MALib的吞吐量在相同GPU计算节点情况下 , 最大采样效率相较于UCBerkeleyRISELab开发的著名通用框架RLlib可提升15倍 , 系统吞吐量较高度优化的SOTA框架SampleFactory提升近100%;纯CPU环境MALib的吞吐量优势较进一步扩大至近450%;同类算法训练速度较DeepMind开发的openspiel提升三倍以上 。 最全的多智能体强化学习算法的支持 。 在训练范式层面 , MALib使用同步/异步 , 中心化/去中心化等模式 , 对不同类型的多智能体强化学习算法的训练进行抽象 , 并通过统一的AgentInterface , 实现了包括独立学习者 , 中心化训练去中心化执行 , 自对弈 , 策论空间应对预言机(PSRO)等算法 。 同时 , 对原先不支持并行异步训练的算法 , 也可以使用MALib进行并行采样与训练的加速 。部分训练效果
我们和一些现有的分布式强化学习框架进行了对比 , 以MADDPG为例 , 下图展示的是在multi-agentparticleenvironments上使用不同并行程度训练simple-spread任务的学习曲线 。
上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练
文章图片
与RLlib对比训练MADDPG的效果 。
对照框架是RLlib 。 随着worker的数量增多 , RLlib的训练越来越不稳定 , 而MALib的效果一直表现稳定 。 包括更复杂的环境 , 比如StarCraftII的一些实验 , 我们对比PyMARL的实现 , 比较QMIX算法训练到胜率达到80%所花费的时间 , MALib有显著的效率提升(worker数量都是设置成32) 。
上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练
文章图片
与PyMARL在星际任务上的效率对比 。
上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练】另一方面 , 我们比较关注的是训练过程的采样效率 。 我们也对比了与其他分布式强化学习框架的吞吐量对比 , 在多智体版本的Atari游戏上 , MALib在吞吐量和扩展性上都表现了不错的性能 。
上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练
文章图片
在星际及多智能体Atari任务上不同框架的吞吐量对比 。
目前 , 我们的项目已经开源在GitHub上(https://github.com/sjtu-marl/malib) , 更多的功能正在积极开发中 , 欢迎使用并向我们提出宝贵的改进意见!同时如果有兴趣参与项目开发 , 欢迎联系我们!联系方式:ying.wen@sjtu.edu.cn 。
团队介绍
本项目由上海交通大学与伦敦大学学院(UCL)联合的多智能体强化学习研究团队开发 。 MALib项目主要由上海交通大学温颖助理教授指导下进行开发 , 核心开发成员包括上海交通大学三年级博士生周铭 , ACM班大四本科生万梓煜 , 一年级博士生王翰竟 , 访问学者温睦宁 , ACM班大三本科生吴润哲 , 并得到上海交通大学张伟楠副教授和伦敦大学学院的杨耀东博士、汪军教授的联合指导 。