Oracle-Guided Deep Reinforcement Learning for Large-Scale Multi-UAVs Flocking and Navigation

植绒(纹理) 强化学习 甲骨文公司 马尔可夫决策过程 计算机科学 可扩展性 人工智能 群体行为 灵活性(工程) 分布式计算 机器学习 马尔可夫过程 软件工程 数据库 统计 复合材料 材料科学 数学
作者
Wen Wang,Liang Wang,Junfeng Wu,Xianping Tao,Haijun Wu
出处
期刊:IEEE Transactions on Vehicular Technology [Institute of Electrical and Electronics Engineers]
卷期号:71 (10): 10280-10292 被引量:23
标识
DOI:10.1109/tvt.2022.3184043
摘要

The flocking and navigation control of large-scale Unmanned Aerial Vehicle (UAV) swarms have received a lot of research interest due to the wide applications of UAVs in many fields. Compared to traditional non-learning-based flocking and navigation control methods, reinforcement learning-based methods have advantages in model-free, flexibility, and adaptability. In this paper, we formulate the flocking and navigation control of the UAV swarm as a Markov Decision Process (MDP) and use multi-agent reinforcement learning methods to solve the problem. There are two significant challenges introduced by reinforcement learning: the scalability issue and the partial observations of each UAV. We adopt the independent learning and parameter sharing scheme to tackle the scalability issue, which extends the single-agent reinforcement learning algorithms to the multi-agent scenario. For the partial observations, we propose an oracle-guided two-stage training and execution scheme, which utilizes the flock center during the training phase but avoids the dependence on the flock center during the execution phase. We design the oracle-guided observations and rewards and build a highly efficient simulation environment to conduct experiments. Simulation results show that the policy trained with our method performs well with up to thirty-two UAVs and outperforms the policy trained with local observations.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
mashibeo完成签到,获得积分10
2秒前
量子星尘发布了新的文献求助10
4秒前
vitamin完成签到 ,获得积分10
12秒前
xiaofan完成签到,获得积分10
21秒前
krathhong完成签到 ,获得积分10
21秒前
wenhuanwenxian完成签到 ,获得积分10
22秒前
22秒前
量子星尘发布了新的文献求助10
33秒前
充电宝应助LALALADDDD采纳,获得10
33秒前
开拖拉机的医学僧完成签到 ,获得积分10
34秒前
瘦瘦爆米花完成签到,获得积分10
36秒前
愫浅完成签到 ,获得积分10
38秒前
大熊完成签到 ,获得积分10
39秒前
42秒前
CipherSage应助阳炎采纳,获得10
44秒前
兴尽晚回舟完成签到 ,获得积分10
48秒前
LALALADDDD发布了新的文献求助10
48秒前
49秒前
我独舞完成签到 ,获得积分10
50秒前
SCI的芷蝶完成签到 ,获得积分10
54秒前
LALALADDDD完成签到,获得积分10
56秒前
量子星尘发布了新的文献求助10
57秒前
忧虑的静柏完成签到 ,获得积分10
59秒前
1分钟前
笨笨山芙完成签到 ,获得积分10
1分钟前
汉堡包应助科研通管家采纳,获得10
1分钟前
isedu完成签到,获得积分10
1分钟前
geo发布了新的文献求助10
1分钟前
ZXT完成签到 ,获得积分10
1分钟前
1分钟前
abtitw完成签到,获得积分10
1分钟前
逆流的鱼完成签到 ,获得积分10
1分钟前
所所应助moncypool采纳,获得30
1分钟前
量子星尘发布了新的文献求助10
1分钟前
小确幸完成签到,获得积分10
1分钟前
现代大神完成签到,获得积分10
1分钟前
Lucifer完成签到 ,获得积分10
1分钟前
小杨完成签到 ,获得积分10
1分钟前
1分钟前
泡泡茶壶o完成签到 ,获得积分10
1分钟前
高分求助中
【提示信息,请勿应助】请使用合适的网盘上传文件 10000
Continuum Thermodynamics and Material Modelling 2000
Green Star Japan: Esperanto and the International Language Question, 1880–1945 800
Sentimental Republic: Chinese Intellectuals and the Maoist Past 800
The Martian climate revisited: atmosphere and environment of a desert planet 800
Learning to Listen, Listening to Learn 520
Plasmonics 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3868049
求助须知:如何正确求助?哪些是违规求助? 3410297
关于积分的说明 10667112
捐赠科研通 3134498
什么是DOI,文献DOI怎么找? 1729156
邀请新用户注册赠送积分活动 833184
科研通“疑难数据库(出版商)”最低求助积分说明 780620