清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Learning‐based T‐sHDP() for optimal control of a class of nonlinear discrete‐time systems

贝尔曼方程 强化学习 最优控制 启发式 趋同(经济学) 动态规划 非线性系统 等价(形式语言) 计算机科学 数学优化 人工神经网络 班级(哲学) 功能(生物学) 数学 人工智能 离散数学 进化生物学 生物 量子力学 物理 经济 经济增长
作者
Luyang Yu,Weibo Liu,Yurong Liu,Fawaz E. Alsaadi
出处
期刊:International Journal of Robust and Nonlinear Control [Wiley]
卷期号:32 (5): 2624-2643 被引量:5
标识
DOI:10.1002/rnc.5847
摘要

Abstract This article investigates the optimal control problem via reinforcement learning for a class of nonlinear discrete‐time systems. The nonlinear system under consideration is assumed to be partially unknown. A new learning‐based algorithm, T ‐step heuristic dynamic programming with eligibility traces ( T ‐sHDP( )), is proposed to tackle the optimal control problem for such partially unknown system. First, the concerned optimal control problem is turned into its equivalence problem, that is, solving a Bellman equation. Then, the T ‐sHDP( ) is utilized to get an approximate solution of Bellman equation, and a rigorous convergence analysis is also conducted as well. Instead of the commonly used single step update approach, the T ‐sHDP( ) stores finite step past returns by introducing a parameter, and then utilizes these knowledge to update the value function (VF) of multiple moments synchronously, so as to achieve higher convergence speed. For implementation of T ‐sHDP( ), a neural network‐based actor‐critic architecture is applied to approximate VF and optimal control scheme. Finally, the feasibility of the algorithm is demonstrated by two illustrative simulation examples.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
21秒前
1分钟前
科研通AI5应助Nn采纳,获得10
1分钟前
1分钟前
Nn发布了新的文献求助10
1分钟前
玛卡巴卡爱吃饭完成签到 ,获得积分10
1分钟前
2分钟前
Sunny完成签到,获得积分10
3分钟前
xiaxiao完成签到,获得积分0
3分钟前
Nn完成签到,获得积分20
3分钟前
快乐随心完成签到 ,获得积分10
3分钟前
Nn发布了新的文献求助10
3分钟前
widesky777完成签到 ,获得积分0
3分钟前
欢呼的冰蝶完成签到,获得积分10
4分钟前
Wang完成签到 ,获得积分20
4分钟前
Owen应助Xin采纳,获得10
5分钟前
文献搬运工完成签到 ,获得积分10
6分钟前
宇文非笑完成签到 ,获得积分10
6分钟前
完美世界应助985博士采纳,获得10
6分钟前
丘比特应助LULU采纳,获得20
6分钟前
7分钟前
7分钟前
whardon发布了新的文献求助10
7分钟前
merrylake完成签到 ,获得积分10
7分钟前
科研通AI2S应助科研通管家采纳,获得10
7分钟前
捉迷藏完成签到,获得积分10
8分钟前
8分钟前
qipengchen发布了新的文献求助10
8分钟前
Becky完成签到 ,获得积分10
9分钟前
斯文败类应助科研通管家采纳,获得10
9分钟前
cadcae完成签到,获得积分10
10分钟前
10分钟前
哈哈哈发布了新的文献求助10
10分钟前
10分钟前
DocZhao应助哈哈哈采纳,获得10
10分钟前
科研通AI2S应助哈哈哈采纳,获得10
10分钟前
哈哈哈完成签到,获得积分10
10分钟前
Xin完成签到,获得积分10
10分钟前
11分钟前
12分钟前
高分求助中
The Oxford Encyclopedia of the History of Modern Psychology 1500
Parametric Random Vibration 600
城市流域产汇流机理及其驱动要素研究—以北京市为例 500
Plasmonics 500
Drug distribution in mammals 500
Building Quantum Computers 458
Happiness in the Nordic World 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3857311
求助须知:如何正确求助?哪些是违规求助? 3399737
关于积分的说明 10613474
捐赠科研通 3122022
什么是DOI,文献DOI怎么找? 1721183
邀请新用户注册赠送积分活动 828920
科研通“疑难数据库(出版商)”最低求助积分说明 777928