Safe multi-agent reinforcement learning for multi-robot control

强化学习 机器人 计算机科学 人工智能 机器人学 控制(管理) 国家(计算机科学) 泥灰岩 数学优化 数学 算法 古生物学 构造盆地 生物
作者
Shangding Gu,Jakub Grudzien Kuba,Yuanpei Chen,Yali Du,Yang Long,Alois Knoll,Yaodong Yang
出处
期刊:Artificial Intelligence [Elsevier]
卷期号:319: 103905-103905 被引量:87
标识
DOI:10.1016/j.artint.2023.103905
摘要

A challenging problem in robotics is how to control multiple robots cooperatively and safely in real-world applications. Yet, developing multi-robot control methods from the perspective of safe multi-agent reinforcement learning (MARL) has merely been studied. To fill this gap, in this study, we investigate safe MARL for multi-robot control on cooperative tasks, in which each individual robot has to not only meet its own safety constraints while maximising their reward, but also consider those of others to guarantee safe team behaviours. Firstly, we formulate the safe MARL problem as a constrained Markov game and employ policy optimisation to solve it theoretically. The proposed algorithm guarantees monotonic improvement in reward and satisfaction of safety constraints at every iteration. Secondly, as approximations to the theoretical solution, we propose two safe multi-agent policy gradient methods: Multi-Agent Constrained Policy Optimisation (MACPO) and MAPPO-Lagrangian. Thirdly, we develop the first three safe MARL benchmarks—Safe Multi-Agent MuJoCo (Safe MAMuJoCo), Safe Multi-Agent Robosuite (Safe MARobosuite) and Safe Multi-Agent Isaac Gym (Safe MAIG) to expand the toolkit of MARL and robot control research communities. Finally, experimental results on the three safe MARL benchmarks indicate that our methods can achieve state-of-the-art performance in the balance between improving reward and satisfying safety constraints compared with strong baselines. Demos and code are available at the link (https://sites.google.com/view/aij-safe-marl/).2
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
动听的飞松完成签到 ,获得积分10
刚刚
小雪完成签到,获得积分10
刚刚
冰魄落叶完成签到,获得积分10
1秒前
大兵哥完成签到 ,获得积分10
1秒前
NexusExplorer应助离笼采纳,获得10
2秒前
2秒前
cp1690完成签到,获得积分10
5秒前
寻找组织应助小雪采纳,获得20
5秒前
lulull完成签到,获得积分10
7秒前
慕白发布了新的文献求助10
8秒前
Zsx完成签到,获得积分10
14秒前
elebug完成签到,获得积分10
14秒前
哈哈哈完成签到,获得积分10
16秒前
17秒前
17秒前
科研通AI6应助科研通管家采纳,获得10
17秒前
17秒前
科研通AI6应助科研通管家采纳,获得10
17秒前
呵呵喊我完成签到 ,获得积分10
17秒前
18秒前
lht完成签到 ,获得积分10
20秒前
慕白完成签到,获得积分10
20秒前
jiao完成签到,获得积分10
21秒前
二木完成签到,获得积分10
21秒前
家迎松完成签到,获得积分10
22秒前
读心理学导致的完成签到,获得积分10
22秒前
23秒前
23秒前
12334完成签到,获得积分10
23秒前
24秒前
25秒前
26秒前
26秒前
二木发布了新的文献求助10
27秒前
高远玺完成签到 ,获得积分10
27秒前
fangang发布了新的文献求助30
28秒前
科研通AI2S应助lucas采纳,获得10
29秒前
家迎松发布了新的文献求助10
30秒前
30秒前
Erich完成签到 ,获得积分10
31秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
List of 1,091 Public Pension Profiles by Region 1621
Lloyd's Register of Shipping's Approach to the Control of Incidents of Brittle Fracture in Ship Structures 1000
Brittle fracture in welded ships 1000
King Tyrant 600
A Guide to Genetic Counseling, 3rd Edition 500
Laryngeal Mask Anesthesia: Principles and Practice. 2nd ed 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5565256
求助须知:如何正确求助?哪些是违规求助? 4650146
关于积分的说明 14689953
捐赠科研通 4591998
什么是DOI,文献DOI怎么找? 2519428
邀请新用户注册赠送积分活动 1491940
关于科研通互助平台的介绍 1463159