上海交大开源训练框架，支持大规模基于种群多智能体强化学习训练( 三 )

文章图片
中心化任务调度模型(c)与以往分布式强化学习框架调度模型的对比：(a)完全分布式；(b)层级式
具体而言， MALib的框架特点如下：
支持大规模基于种群的多智能体强化训练。星际争霸2 ， Dota2 ，王者荣耀等游戏上超越人类顶尖水平的AI ，都得益于大规模基于种群的多智能体强化学习训练，但现在没有一个开源通用的框架支持相关研究与应用。针对这一场景， MALib基于Ray的分布式执行框架，实现了一个灵活可自定义的多智能体强化学习并行训练框架，并且对基于种群的训练做了特别优化，不仅仅可以实现类似于星际争霸2中的League机制，也支持更灵活的PSRO（策略空间应对预言机）等算法。同时，除了电子竞技游戏之外， MALib也将提供体育（GoogleFootball），自动驾驶等场景的支持。 MALib的采样吞吐量较现有多智能体强化学习框架大幅度提升。通过利用所提出的中心化任务分发模型， MALib的吞吐量在相同GPU计算节点情况下，最大采样效率相较于UCBerkeleyRISELab开发的著名通用框架RLlib可提升15倍，系统吞吐量较高度优化的SOTA框架SampleFactory提升近100%；纯CPU环境MALib的吞吐量优势较进一步扩大至近450%；同类算法训练速度较DeepMind开发的openspiel提升三倍以上。最全的多智能体强化学习算法的支持。在训练范式层面， MALib使用同步/异步，中心化/去中心化等模式，对不同类型的多智能体强化学习算法的训练进行抽象，并通过统一的AgentInterface ，实现了包括独立学习者，中心化训练去中心化执行，自对弈，策论空间应对预言机（PSRO）等算法。同时，对原先不支持并行异步训练的算法，也可以使用MALib进行并行采样与训练的加速。部分训练效果
我们和一些现有的分布式强化学习框架进行了对比，以MADDPG为例，下图展示的是在multi-agentparticleenvironments上使用不同并行程度训练simple-spread任务的学习曲线。

文章图片
与RLlib对比训练MADDPG的效果。
对照框架是RLlib 。随着worker的数量增多， RLlib的训练越来越不稳定，而MALib的效果一直表现稳定。包括更复杂的环境，比如StarCraftII的一些实验，我们对比PyMARL的实现，比较QMIX算法训练到胜率达到80%所花费的时间， MALib有显著的效率提升（worker数量都是设置成32）。

文章图片
与PyMARL在星际任务上的效率对比。
【上海交大开源训练框架，支持大规模基于种群多智能体强化学习训练】另一方面，我们比较关注的是训练过程的采样效率。我们也对比了与其他分布式强化学习框架的吞吐量对比，在多智体版本的Atari游戏上， MALib在吞吐量和扩展性上都表现了不错的性能。

文章图片
在星际及多智能体Atari任务上不同框架的吞吐量对比。
目前，我们的项目已经开源在GitHub上（https://github.com/sjtu-marl/malib），更多的功能正在积极开发中，欢迎使用并向我们提出宝贵的改进意见！同时如果有兴趣参与项目开发，欢迎联系我们！联系方式：ying.wen@sjtu.edu.cn 。
团队介绍
本项目由上海交通大学与伦敦大学学院（UCL）联合的多智能体强化学习研究团队开发。 MALib项目主要由上海交通大学温颖助理教授指导下进行开发，核心开发成员包括上海交通大学三年级博士生周铭， ACM班大四本科生万梓煜，一年级博士生王翰竟，访问学者温睦宁， ACM班大三本科生吴润哲，并得到上海交通大学张伟楠副教授和伦敦大学学院的杨耀东博士、汪军教授的联合指导。