亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Monotonic Quantile Network for Worst-Case Offline Reinforcement Learning

分位数 强化学习 分位数回归 CVAR公司 计算机科学 分位数函数 单调函数 功能(生物学) 贝尔曼方程 增强学习 数学优化 离线学习 人工智能 预期短缺 机器学习 计量经济学 在线学习 数学 累积分布函数 风险管理 统计 经济 概率密度函数 万维网 管理 数学分析 生物 进化生物学
作者
Chenjia Bai,Ting Xiao,Zhoufan Zhu,Lingxiao Wang,Fan Zhou,Animesh Garg,Bin He,Peng Liu,Zhaoran Wang
出处
期刊:IEEE transactions on neural networks and learning systems [Institute of Electrical and Electronics Engineers]
卷期号:35 (7): 8954-8968 被引量:10
标识
DOI:10.1109/tnnls.2022.3217189
摘要

A key challenge in offline reinforcement learning (RL) is how to ensure the learned offline policy is safe, especially in safety-critical domains. In this article, we focus on learning a distributional value function in offline RL and optimizing a worst-case criterion of returns. However, optimizing a distributional value function in offline RL can be hard, since the crossing quantile issue is serious, and the distribution shift problem needs to be addressed. To this end, we propose monotonic quantile network (MQN) with conservative quantile regression (CQR) for risk-averse policy learning. First, we propose an MQN to learn the distribution over returns with non-crossing guarantees of the quantiles. Then, we perform CQR by penalizing the quantile estimation for out-of-distribution (OOD) actions to address the distribution shift in offline RL. Finally, we learn a worst-case policy by optimizing the conditional value-at-risk (CVaR) of the distributional value function. Furthermore, we provide theoretical analysis of the fixed-point convergence in our method. We conduct experiments in both risk-neutral and risk-sensitive offline settings, and the results show that our method obtains safe and conservative behaviors in robotic locomotion tasks.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
6秒前
8秒前
桐夜完成签到 ,获得积分10
10秒前
12秒前
懒洋洋发布了新的文献求助10
14秒前
chenlc971125完成签到 ,获得积分0
15秒前
16秒前
看不了一点文献应助gmugyy采纳,获得30
16秒前
17秒前
17秒前
XZ完成签到,获得积分10
26秒前
Tchag完成签到,获得积分20
33秒前
小时完成签到,获得积分10
34秒前
36秒前
CTS完成签到,获得积分10
39秒前
cy完成签到,获得积分10
43秒前
陈欣瑶完成签到 ,获得积分10
44秒前
Ashore完成签到 ,获得积分10
52秒前
wellsqin完成签到,获得积分10
57秒前
852应助謓言采纳,获得10
57秒前
无花果应助懒洋洋采纳,获得30
59秒前
FashionBoy应助墨染采纳,获得10
1分钟前
终止密码子完成签到 ,获得积分10
1分钟前
苻谷丝完成签到,获得积分10
1分钟前
niqiu完成签到 ,获得积分10
1分钟前
执着的香薇完成签到,获得积分10
1分钟前
gmugyy发布了新的文献求助30
1分钟前
坚强的纸飞机完成签到,获得积分0
1分钟前
墨染完成签到,获得积分10
1分钟前
1分钟前
听音乐的可可完成签到 ,获得积分10
1分钟前
我去吃饭完成签到 ,获得积分10
1分钟前
謓言发布了新的文献求助10
1分钟前
1分钟前
小鸡毛完成签到,获得积分10
1分钟前
NexusExplorer应助科研通管家采纳,获得30
1分钟前
gmugyy完成签到,获得积分10
1分钟前
深情安青应助科研通管家采纳,获得10
1分钟前
Owen应助科研通管家采纳,获得20
1分钟前
1分钟前
高分求助中
液晶指向矢仿真分析数据集 8888
Invited Discussant 63O and 64O 1000
Ideology and Meaning-Making under the Putin Regime 750
Thermal effects on behaviour of clay–structure interface under partial drainage 500
Petrology and Plate Tectonics 500
Writing Systems 500
A Handbook of User Experience Research & Design in Libraries 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 计算机科学 化学工程 生物化学 物理 内科学 复合材料 催化作用 光电子学 物理化学 电极 细胞生物学 基因 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6888960
求助须知:如何正确求助?哪些是违规求助? 8586737
关于积分的说明 18239273
捐赠科研通 6279418
什么是DOI,文献DOI怎么找? 3058080
关于科研通互助平台的介绍 2072490
邀请新用户注册赠送积分活动 2035798