亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Online robot guidance and navigation in non-stationary environment with hybrid Hierarchical Reinforcement Learning

强化学习 计算机科学 任务(项目管理) 人工智能 机器学习 状态空间 趋同(经济学) 功能(生物学) 机器人 分解 数学 经济增长 进化生物学 生物 生态学 统计 经济 管理
作者
Ye Zhou,Hann Woei Ho
出处
期刊:Engineering Applications of Artificial Intelligence [Elsevier BV]
卷期号:114: 105152-105152 被引量:10
标识
DOI:10.1016/j.engappai.2022.105152
摘要

Hierarchical Reinforcement Learning (HRL) provides an option to solve complex guidance and navigation problems with high-dimensional spaces, multiple objectives, and a large number of states and actions. The current HRL methods often use the same or similar reinforcement learning methods within one application so that multiple objectives can be easily combined. Since there is not a single learning method that can benefit all targets, hybrid Hierarchical Reinforcement Learning (hHRL) was proposed to use various methods to optimize the learning with different types of information and objectives in one application. The previous hHRL method, however, requires manual task-specific designs, which involves engineers' preferences and may impede its transfer learning ability. This paper, therefore, proposes a systematic online guidance and navigation method under the framework of hHRL, which generalizes training samples with a function approximator, decomposes the state space automatically, and thus does not require task-specific designs. The simulation results indicate that the proposed method is superior to the previous hHRL method, which requires manual decomposition, in terms of the convergence rate and the learnt policy. It is also shown that this method is generally applicable to non-stationary environments changing over episodes and over time without the loss of efficiency even with noisy state information.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
高大山兰完成签到,获得积分10
3秒前
charih完成签到 ,获得积分10
11秒前
热情礼貌一问三不知完成签到 ,获得积分10
38秒前
闪闪的雪卉完成签到,获得积分10
43秒前
luli应助飞飞飞采纳,获得10
51秒前
53秒前
skotrie189完成签到,获得积分10
56秒前
pete发布了新的文献求助10
1分钟前
1分钟前
大个应助pete采纳,获得10
1分钟前
留胡子的丹亦完成签到,获得积分10
1分钟前
1分钟前
cc完成签到,获得积分10
1分钟前
aa发布了新的文献求助10
1分钟前
Dong完成签到 ,获得积分10
2分钟前
FeelingUnreal完成签到,获得积分10
2分钟前
2分钟前
美丽的沛菡完成签到,获得积分10
2分钟前
GHOSTagw完成签到,获得积分10
2分钟前
pete发布了新的文献求助10
2分钟前
CodeCraft应助luli采纳,获得10
2分钟前
aa关闭了aa文献求助
3分钟前
纯真天荷完成签到,获得积分10
3分钟前
香蕉觅云应助科研通管家采纳,获得10
3分钟前
lzq671完成签到 ,获得积分10
3分钟前
乐乐应助科研雪瑞采纳,获得10
3分钟前
3分钟前
伶俐的一斩完成签到,获得积分10
4分钟前
4分钟前
DuFlank完成签到,获得积分10
4分钟前
DuFlank发布了新的文献求助10
4分钟前
儒雅的月光完成签到,获得积分10
4分钟前
科研通AI2S应助科研通管家采纳,获得10
5分钟前
光亮豌豆完成签到,获得积分10
5分钟前
uss完成签到,获得积分10
5分钟前
朴实的新柔完成签到,获得积分10
6分钟前
simons完成签到 ,获得积分10
6分钟前
深情的朝雪完成签到,获得积分10
6分钟前
7分钟前
竹捷发布了新的文献求助10
7分钟前
高分求助中
Psychopathic Traits and Quality of Prison Life 1000
Chemistry and Physics of Carbon Volume 18 800
The formation of Australian attitudes towards China, 1918-1941 660
Signals, Systems, and Signal Processing 610
天津市智库成果选编 600
Forced degradation and stability indicating LC method for Letrozole: A stress testing guide 500
全相对论原子结构与含时波包动力学的理论研究--清华大学 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6451246
求助须知:如何正确求助?哪些是违规求助? 8263209
关于积分的说明 17606206
捐赠科研通 5515989
什么是DOI,文献DOI怎么找? 2903573
邀请新用户注册赠送积分活动 1880627
关于科研通互助平台的介绍 1722625