清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Approximate Nash Solutions for Multiplayer Mixed-Zero-Sum Game With Reinforcement Learning

纳什均衡 零和博弈 强化学习 ε平衡 最佳反应 博弈论 数学优化 非线性系统 计算机科学 数学 数理经济学 人工智能 量子力学 物理
作者
Yongfeng Lv,Xuemei Ren
出处
期刊:IEEE transactions on systems, man, and cybernetics [Institute of Electrical and Electronics Engineers]
卷期号:49 (12): 2739-2750 被引量:85
标识
DOI:10.1109/tsmc.2018.2861826
摘要

Inspired by Nash game theory, a multiplayer mixed-zero-sum (MZS) nonlinear game considering both two situations [zero-sum and nonzero-sum (NZS) Nash games] is proposed in this paper. A synchronous reinforcement learning (RL) scheme based on the identifier-critic structure is developed to learn the Nash equilibrium solution of the proposed MZS game. First, the MZS game formulation is presented, where the performance indexes for players 1 to N - 1 and N NZS Nash game are presented, and another performance index for players N and N + 1 zero-sum game is presented, such that player N cooperates with players 1 to N - 1, while competes with player N + 1, which leads to a Nash equilibrium of all players. A single-layer neural network (NN) is then used to approximate the unknown dynamics of the nonlinear game system. Finally, an RL scheme based on NNs is developed to learn the optimal performance indexes, which can be used to produce the optimal control policy of every player such that Nash equilibrium can be obtained. Thus, the widely used actor NN in RL literature is not needed. To this end, a recently proposed adaptive law is used to estimate the unknown identifier coefficient vectors, and an improved adaptive law with the error performance index is further developed to update the critic coefficient vectors. Both linear and nonlinear simulations are presented to demonstrate the existence of Nash equilibrium for MZS game and performance of the proposed algorithm.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
xiaosui完成签到 ,获得积分10
7秒前
8秒前
大尾巴鱼完成签到,获得积分10
10秒前
武雨寒发布了新的文献求助10
11秒前
monk完成签到 ,获得积分10
13秒前
16秒前
liuliu完成签到 ,获得积分10
18秒前
士成发布了新的文献求助30
21秒前
游艺完成签到 ,获得积分10
29秒前
脑洞疼应助天真咖啡豆采纳,获得10
37秒前
MQ完成签到 ,获得积分10
44秒前
田様应助JR采纳,获得10
47秒前
默默的筝完成签到 ,获得积分10
52秒前
小猴子完成签到 ,获得积分10
58秒前
萨格完成签到 ,获得积分10
58秒前
故酒应助武雨寒采纳,获得10
1分钟前
mrwang完成签到 ,获得积分10
1分钟前
JY完成签到 ,获得积分10
1分钟前
ramsey33完成签到 ,获得积分10
1分钟前
123完成签到 ,获得积分10
1分钟前
曾经不言完成签到 ,获得积分10
1分钟前
clock完成签到 ,获得积分10
1分钟前
英姑应助武雨寒采纳,获得10
1分钟前
hebhm完成签到,获得积分10
1分钟前
1分钟前
zheng完成签到 ,获得积分10
2分钟前
big ben完成签到 ,获得积分10
2分钟前
武雨寒完成签到,获得积分20
2分钟前
科研通AI5应助士成采纳,获得10
2分钟前
qiandi完成签到 ,获得积分10
2分钟前
wushang完成签到 ,获得积分10
2分钟前
2分钟前
Dongjie完成签到,获得积分10
2分钟前
2分钟前
li完成签到 ,获得积分10
2分钟前
hongt05完成签到 ,获得积分10
2分钟前
今天进步了吗完成签到,获得积分10
3分钟前
天天发布了新的文献求助10
3分钟前
wushuimei完成签到 ,获得积分10
3分钟前
yw完成签到,获得积分10
3分钟前
高分求助中
The world according to Garb 600
Разработка метода ускоренного контроля качества электрохромных устройств 500
Mass producing individuality 500
Chinesen in Europa – Europäer in China: Journalisten, Spione, Studenten 500
Arthur Ewert: A Life for the Comintern 500
China's Relations With Japan 1945-83: The Role of Liao Chengzhi // Kurt Werner Radtke 500
Two Years in Peking 1965-1966: Book 1: Living and Teaching in Mao's China // Reginald Hunt 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3819982
求助须知:如何正确求助?哪些是违规求助? 3362858
关于积分的说明 10418889
捐赠科研通 3081189
什么是DOI,文献DOI怎么找? 1695009
邀请新用户注册赠送积分活动 814799
科研通“疑难数据库(出版商)”最低求助积分说明 768522