Cooperative Multi-Agent Reinforcement Learning with Partial Observations

强化学习 热力学第零定律 估计员 计算机科学 数学优化 残余物 数学 算法 人工智能 统计 物理 量子力学
作者
Yan Zhang,Michael M. Zavlanos
出处
期刊:Cornell University - arXiv 被引量:2
标识
DOI:10.48550/arxiv.2006.10822
摘要

In this paper, we propose a distributed zeroth-order policy optimization method for Multi-Agent Reinforcement Learning (MARL). Existing MARL algorithms often assume that every agent can observe the states and actions of all the other agents in the network. This can be impractical in large-scale problems, where sharing the state and action information with multi-hop neighbors may incur significant communication overhead. The advantage of the proposed zeroth-order policy optimization method is that it allows the agents to compute the local policy gradients needed to update their local policy functions using local estimates of the global accumulated rewards that depend on partial state and action information only and can be obtained using consensus. Specifically, to calculate the local policy gradients, we develop a new distributed zeroth-order policy gradient estimator that relies on one-point residual-feedback which, compared to existing zeroth-order estimators that also rely on one-point feedback, significantly reduces the variance of the policy gradient estimates improving, in this way, the learning performance. We show that the proposed distributed zeroth-order policy optimization method with constant stepsize converges to the neighborhood of a policy that is a stationary point of the global objective function. The size of this neighborhood depends on the agents' learning rates, the exploration parameters, and the number of consensus steps used to calculate the local estimates of the global accumulated rewards. Moreover, we provide numerical experiments that demonstrate that our new zeroth-order policy gradient estimator is more sample-efficient compared to other existing one-point estimators.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
gf发布了新的文献求助10
刚刚
lin完成签到,获得积分10
刚刚
2秒前
zzp完成签到,获得积分10
3秒前
谦让的南蕾完成签到,获得积分10
3秒前
3秒前
狂野土豆完成签到 ,获得积分10
3秒前
琳雨完成签到,获得积分10
3秒前
4秒前
包容的紫萍完成签到 ,获得积分10
4秒前
悠然地八音完成签到,获得积分10
5秒前
5秒前
5秒前
雪满头应助HSTrigger采纳,获得10
6秒前
zhaozhao完成签到 ,获得积分10
7秒前
7秒前
liu完成签到,获得积分10
7秒前
研友_5Y9775完成签到,获得积分20
7秒前
躺平行不行给躺平行不行的求助进行了留言
8秒前
搜集达人应助胡俊豪采纳,获得10
8秒前
THEO完成签到,获得积分10
9秒前
9秒前
蜗牛发布了新的文献求助10
9秒前
Alice0210发布了新的文献求助10
9秒前
10秒前
完美世界应助雷L采纳,获得10
11秒前
王哈哈发布了新的文献求助10
12秒前
12秒前
12秒前
豆子发布了新的文献求助10
13秒前
小呆发布了新的文献求助10
14秒前
15秒前
issac发布了新的文献求助10
16秒前
pluto应助gf采纳,获得10
17秒前
哈喝喊完成签到,获得积分10
18秒前
llya完成签到,获得积分10
18秒前
18秒前
酷波er应助胡俊豪采纳,获得10
19秒前
19秒前
小阳光发布了新的文献求助10
19秒前
高分求助中
论现代体育科学研究的方法学特征 1000
Invited Discussant 63O and 64O 1000
Ideology and Meaning-Making under the Putin Regime 750
Safety Pharmacology 500
《KNN基无铅压电陶瓷电学性能优化与物理机理研究》 500
Petrology and Plate Tectonics 500
A Handbook of User Experience Research & Design in Libraries 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 计算机科学 化学工程 生物化学 物理 内科学 复合材料 催化作用 光电子学 物理化学 电极 细胞生物学 基因 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6915985
求助须知:如何正确求助?哪些是违规求助? 8607196
关于积分的说明 18262441
捐赠科研通 6328312
什么是DOI,文献DOI怎么找? 3068231
关于科研通互助平台的介绍 2096370
邀请新用户注册赠送积分活动 2045608