Empowering the Diversity and Individuality of Option: Residual Soft Option Critic Framework

计算机科学 残余物 强化学习 修剪 动作(物理) 抽象 多样性(政治) 人工智能 机器学习 空格(标点符号) 熵(时间箭头) 算法 认识论 社会学 哲学 物理 量子力学 人类学 农学 生物 操作系统
作者
Anjie Zhu,Feiyu Chen,Hui Xu,Deqiang Ouyang,Jie Shao
出处
期刊:IEEE transactions on neural networks and learning systems [Institute of Electrical and Electronics Engineers]
卷期号:34 (8): 4816-4825 被引量:2
标识
DOI:10.1109/tnnls.2021.3128666
摘要

Extracting temporal abstraction (option), which empowers the action space, is a crucial challenge in hierarchical reinforcement learning. Under a well-structured action space, decision-making agents can probe more deeply in the searching or plan efficiently through pruning irrelevant action candidates. However, automatically capturing a well-performed temporal abstraction is a nontrivial challenge due to its insufficient exploration and inadequate functionality. We consider alleviating this challenge from two perspectives, i.e., diversity and individuality. For the aspect of diversity, we propose a maximum entropy model based on ensembled options to encourage exploration. For the aspect of individuality, we propose to distinguish each option accurately, utilizing mutual formation minimization, so that each option can better express and function. We name our framework as an ensemble with soft option (ESO) critics. Furthermore, the residual algorithm (RA) with a bidirectional target network is introduced to stabilize bootstrapping, yielding a residual version of ESO. We provide detailed analysis for extensive experiments, which shows that our method boosts performance in commonly used continuous control tasks.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
4秒前
华仔应助wuhoo采纳,获得10
4秒前
机灵自中完成签到,获得积分10
7秒前
9秒前
11秒前
harry2021完成签到,获得积分10
12秒前
WFLLL发布了新的文献求助10
12秒前
12秒前
科研通AI2S应助zmx采纳,获得10
13秒前
16秒前
parasite发布了新的文献求助10
16秒前
xi发布了新的文献求助10
17秒前
科研通AI2S应助melody采纳,获得10
18秒前
cjyyy发布了新的文献求助10
20秒前
杨柯完成签到,获得积分10
20秒前
zmx完成签到,获得积分10
21秒前
岩松完成签到 ,获得积分10
24秒前
科研通AI5应助suodeheng采纳,获得18
25秒前
烂漫的煎饼完成签到 ,获得积分10
27秒前
27秒前
wanci应助cjyyy采纳,获得10
28秒前
Gloria完成签到,获得积分10
28秒前
深情安青应助光亮的依凝采纳,获得10
30秒前
32秒前
33秒前
千山完成签到,获得积分10
34秒前
35秒前
永远完成签到,获得积分10
37秒前
dennisysz发布了新的文献求助10
39秒前
fwstu完成签到,获得积分10
39秒前
怦然心动发布了新的文献求助10
41秒前
所所应助关天木采纳,获得10
43秒前
45秒前
66发布了新的文献求助10
46秒前
千山发布了新的文献求助10
48秒前
啥也不会完成签到 ,获得积分10
49秒前
在水一方应助斯文的萝莉采纳,获得30
49秒前
怡然的雪柳完成签到 ,获得积分10
53秒前
53秒前
科研通AI2S应助e1采纳,获得10
54秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
ISCN 2024 – An International System for Human Cytogenomic Nomenclature (2024) 3000
Continuum Thermodynamics and Material Modelling 2000
Encyclopedia of Geology (2nd Edition) 2000
105th Edition CRC Handbook of Chemistry and Physics 1600
Maneuvering of a Damaged Navy Combatant 650
the MD Anderson Surgical Oncology Manual, Seventh Edition 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3777470
求助须知:如何正确求助?哪些是违规求助? 3322795
关于积分的说明 10211897
捐赠科研通 3038215
什么是DOI,文献DOI怎么找? 1667178
邀请新用户注册赠送积分活动 797990
科研通“疑难数据库(出版商)”最低求助积分说明 758133