Deep Reinforcement Learning for Nash Equilibrium of Differential Games

纳什均衡 强化学习 ε平衡 最佳反应 计算机科学 极小极大 数学优化 相关平衡 梯度下降 均衡选择 博弈论 数理经济学 人工智能 数学 重复博弈 人工神经网络
作者
Zhen-yu Li,Ya-Zhong Luo
出处
期刊:IEEE transactions on neural networks and learning systems [Institute of Electrical and Electronics Engineers]
卷期号:36 (2): 2747-2761 被引量:2
标识
DOI:10.1109/tnnls.2024.3351631
摘要

Nash equilibrium is a significant solution concept representing the optimal strategy in an uncooperative multiagent system. This study presents two deep reinforcement learning (DRL) algorithms for solving the Nash equilibrium of differential games. Both algorithms are built upon the distributed distributional deep deterministic policy gradient (D4PG) algorithm, which is a one-sided learning method. We modified it to a two-sided adversarial learning method. The first is D4PG for games (D4P2G), which directly applies an adversarial play framework based on the D4PG. A simultaneous policy gradient descent (SPGD) method is employed to optimize the policies of the players with conflicting objectives. The second is the distributional deep deterministic symplectic policy gradient (D4SPG) algorithm, which is our main contribution. More specifically, it newly designs a minimax learning framework that combines the critics of the two players and proposes a symplectic policy gradient adjustment method to find a better policy gradient. Simulations show that both algorithms converge to the Nash equilibrium in most cases, but D4SPG can learn the Nash equilibrium more accurately and efficiently, especially in Hamiltonian games. Moreover, it can handle games with complex dynamics, which is challenging for traditional methods.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
雨诺发布了新的文献求助10
2秒前
研友_LmeK4L发布了新的文献求助20
2秒前
典雅的静发布了新的文献求助10
3秒前
今天开始吃草完成签到,获得积分20
3秒前
小李发布了新的文献求助10
3秒前
badguyGJ完成签到,获得积分20
4秒前
Nilzz完成签到,获得积分10
6秒前
善良的妍完成签到,获得积分10
6秒前
周爱李完成签到,获得积分20
7秒前
有鹿来完成签到,获得积分20
9秒前
zlyl完成签到,获得积分10
10秒前
11秒前
wudunxu完成签到,获得积分10
12秒前
14秒前
14秒前
Owen应助Freja采纳,获得20
15秒前
Mona完成签到 ,获得积分10
15秒前
CipherSage应助平常的雁凡采纳,获得10
16秒前
鲤鱼寄容发布了新的文献求助10
16秒前
17秒前
今天要喝椰汁完成签到,获得积分10
17秒前
程云兮完成签到,获得积分10
19秒前
20秒前
闪闪的发布了新的文献求助10
21秒前
上官若男应助zyc采纳,获得10
22秒前
push完成签到 ,获得积分10
24秒前
星辰大海应助梅坤采纳,获得10
25秒前
27秒前
27秒前
zyc完成签到,获得积分20
28秒前
天天快乐应助方寸采纳,获得10
30秒前
StevenZhao完成签到,获得积分0
31秒前
31秒前
希望天下0贩的0应助雨诺采纳,获得10
32秒前
32秒前
33秒前
33秒前
梅竹完成签到,获得积分10
34秒前
36秒前
充电宝应助研友_LmeK4L采纳,获得20
36秒前
高分求助中
Разработка метода ускоренного контроля качества электрохромных устройств 500
Mass producing individuality 500
Chinesen in Europa – Europäer in China: Journalisten, Spione, Studenten 500
Arthur Ewert: A Life for the Comintern 500
China's Relations With Japan 1945-83: The Role of Liao Chengzhi // Kurt Werner Radtke 500
Two Years in Peking 1965-1966: Book 1: Living and Teaching in Mao's China // Reginald Hunt 500
Epigenetic Drug Discovery 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3820866
求助须知:如何正确求助?哪些是违规求助? 3363847
关于积分的说明 10425392
捐赠科研通 3082243
什么是DOI,文献DOI怎么找? 1695484
邀请新用户注册赠送积分活动 815144
科研通“疑难数据库(出版商)”最低求助积分说明 768966