亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Safe Offline Reinforcement Learning Through Hierarchical Policies

强化学习 计算机科学 钢筋 人工智能 心理学 社会心理学
作者
Shaofan Liu,Shiliang Sun
出处
期刊:Lecture Notes in Computer Science 卷期号:: 380-391
标识
DOI:10.1007/978-3-031-05936-0_30
摘要

Recently, offline reinforcement learning has gained increasing attention. However, the safety of offline reinforcement learning has been ignored. It poses a significant challenge to learn a safe and high-performance policy from a fixed dataset that contains unsafe or unexpected state-action pairs without interacting with the environment. Since the unsafe state-action pairs are usually sparse in the behavior data collected by humans, it is difficult to effectively model information about unsafe behaviors. This paper utilized the hierarchical reinforcement learning framework to alleviate the sparsity issue by modeling unsafe behaviors with hierarchical policies. Specifically, a high-level policy determines a prospective state, and a low-level policy takes action to reach the specified goal state. The training objective of the high-level policy is to improve the expected reward that the low-level policy collects when it moves toward the goal state and reduce the number of unsafe actions. We further develop data processing methods to provide training data for the high-level policy and the low-level policy. Evaluation experiments about performance and safety are conducted in simulation environments that return the rewards and unsafe costs obtained by agents during the interaction. Experimental results demonstrate that the proposed algorithm can choose safe actions while maintaining high performance.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
7秒前
琳琅发布了新的文献求助10
10秒前
45秒前
满意的凝荷完成签到 ,获得积分10
51秒前
喃逸完成签到,获得积分10
55秒前
1分钟前
1分钟前
CodeCraft应助琳琅采纳,获得10
1分钟前
orixero应助愉快的远航采纳,获得10
1分钟前
rocky15应助linehan采纳,获得10
1分钟前
2分钟前
琳琅发布了新的文献求助10
2分钟前
aa完成签到,获得积分10
3分钟前
4分钟前
立食劳栖发布了新的文献求助10
4分钟前
爆米花应助科研通管家采纳,获得10
4分钟前
领导范儿应助check003采纳,获得10
5分钟前
5分钟前
wanci应助立食劳栖采纳,获得10
6分钟前
立食劳栖完成签到,获得积分10
6分钟前
6分钟前
6分钟前
6分钟前
7分钟前
niuzyang发布了新的文献求助10
7分钟前
NNN7完成签到,获得积分10
7分钟前
niuzyang完成签到,获得积分10
7分钟前
linehan发布了新的文献求助10
8分钟前
SW完成签到,获得积分10
10分钟前
研友_闾丘枫完成签到 ,获得积分10
10分钟前
10分钟前
tomorrow发布了新的文献求助10
11分钟前
knj_nc完成签到 ,获得积分10
14分钟前
14分钟前
研友_892kOL完成签到,获得积分10
14分钟前
tomorrow发布了新的文献求助10
14分钟前
tomorrow完成签到,获得积分10
14分钟前
neil_match完成签到,获得积分10
15分钟前
15分钟前
15分钟前
高分求助中
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 1000
Corrosion and Oxygen Control 600
Yaws' Handbook of Antoine coefficients for vapor pressure 500
Python Programming for Linguistics and Digital Humanities: Applications for Text-Focused Fields 500
Love and Friendship in the Western Tradition: From Plato to Postmodernity 500
行動データの計算論モデリング 強化学習モデルを例として 500
Johann Gottlieb Fichte: Die späten wissenschaftlichen Vorlesungen / IV,1: ›Transzendentale Logik I (1812)‹ 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2556785
求助须知:如何正确求助?哪些是违规求助? 2180334
关于积分的说明 5623714
捐赠科研通 1901718
什么是DOI,文献DOI怎么找? 950040
版权声明 565625
科研通“疑难数据库(出版商)”最低求助积分说明 504846