Credit assignment with predictive contribution measurement in multi-agent reinforcement learning

强化学习 计算机科学 人工智能 相关性(法律) 机器学习 分解 国家(计算机科学) 预测值 价值(数学) 算法 政治学 生态学 医学 生物 内科学 法学
作者
Renlong Chen,Ying Tan
出处
期刊:Neural Networks [Elsevier]
卷期号:164: 681-690
标识
DOI:10.1016/j.neunet.2023.05.021
摘要

Credit assignment is a crucial issue in multi-agent tasks employing a centralized training and decentralized execution paradigm. While value decomposition has demonstrated strong performance in Q-learning-based approaches and certain Actor-Critic variants, it remains challenging to achieve efficient credit assignment in multi-agent tasks using policy gradient methods due to decomposable value limitations. This paper introduces Predictive Contribution Measurement, an explicit credit assignment method that compares prediction errors among agents and allocates surrogate rewards based on their relevance to global state transitions, with a theoretical guarantee. With multi-agent proximal policy optimization (MAPPO) as a training backend, we propose Predictive Contribution MAPPO (PC-MAPPO). Our experiments demonstrate that PC-MAPPO, with a 10% warm-up phase, outperforms MAPPO, QMIX, and Weighted QMIX on StarCraft multi-agent challenge tasks, particularly in maps requiring heightened cooperation to defeat enemies, such as the map corridor. Employing a pre-trained predictor, PC-MAPPO achieves significantly improved performance on all tested super-hard maps. In parallel training scenarios, PC-MAPPO exhibits superior data efficiency and achieves state-of-the-art performance compared to other methods.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
Akim应助Tine采纳,获得10
2秒前
曼夭非夭完成签到,获得积分10
2秒前
2秒前
闫伯涵发布了新的文献求助10
3秒前
3秒前
CBWKEYANTONG123完成签到,获得积分10
4秒前
小西发布了新的文献求助20
4秒前
5秒前
lalala完成签到,获得积分10
5秒前
小颖发布了新的文献求助30
5秒前
牧长一完成签到 ,获得积分0
5秒前
无花果应助rr采纳,获得10
6秒前
6秒前
王文茹发布了新的文献求助20
6秒前
7秒前
8秒前
盼盼完成签到,获得积分10
8秒前
10秒前
11秒前
12秒前
13秒前
13秒前
14秒前
大壮_0808完成签到,获得积分10
14秒前
包容的飞丹完成签到,获得积分10
14秒前
15秒前
曾经觅珍完成签到,获得积分10
15秒前
15秒前
yhs2121完成签到 ,获得积分10
16秒前
16秒前
17秒前
于暖暖发布了新的文献求助30
17秒前
18秒前
Owen应助wmx采纳,获得10
18秒前
慕青应助兴奋的觅露采纳,获得10
19秒前
19秒前
Kevin完成签到,获得积分10
20秒前
赘婿应助pangziyan采纳,获得10
21秒前
Fyf333完成签到,获得积分10
21秒前
高分求助中
Manual of Clinical Microbiology, 4 Volume Set (ASM Books) 13th Edition 1000
Chinese-English Translation Lexicon Version 3.0 500
Electronic Structure Calculations and Structure-Property Relationships on Aromatic Nitro Compounds 500
マンネンタケ科植物由来メロテルペノイド類の網羅的全合成/Collective Synthesis of Meroterpenoids Derived from Ganoderma Family 500
[Lambert-Eaton syndrome without calcium channel autoantibodies] 400
Statistical Procedures for the Medical Device Industry 400
Workbook for Organic Synthesis: Strategy and Control 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2379282
求助须知:如何正确求助?哪些是违规求助? 2086377
关于积分的说明 5237527
捐赠科研通 1813395
什么是DOI,文献DOI怎么找? 904969
版权声明 558681
科研通“疑难数据库(出版商)”最低求助积分说明 483108