已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Constrained policy optimization

强化学习 计算机科学 约束(计算机辅助设计) 数学优化 功能(生物学) 分歧(语言学) 控制(管理) 人工神经网络 约束满足 约束优化 机器人 人工智能 数学 概率逻辑 语言学 哲学 几何学 进化生物学 生物
作者
Joshua Achiam,David Held,Aviv Tamar,Pieter Abbeel
出处
期刊:International Conference on Machine Learning 卷期号:: 22-31 被引量:323
摘要

For many applications of reinforcement learning it can be more convenient to specify both a reward function and constraints, rather than trying to design behavior through the reward function. For example, systems that physically interact with or around humans should satisfy safety constraints. Recent advances in policy search algorithms (Mnih et al., 2016; Schulman et al., 2015; Lillicrap et al., 2016; Levine et al., 2016) have enabled new capabilities in high-dimensional control, but do not consider the constrained setting. We propose Constrained Policy Optimization (CPO), the first general-purpose policy search algorithm for constrained reinforcement learning with guarantees for near-constraint satisfaction at each iteration. Our method allows us to train neural network policies for high-dimensional control while making guarantees about policy behavior all throughout training. Our guarantees are based on a new theoretical result, which is of independent interest: we prove a bound relating the expected returns of two policies to an average divergence between them. We demonstrate the effectiveness of our approach on simulated robot locomotion tasks where the agent must satisfy constraints motivated by safety.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
yu完成签到,获得积分10
1秒前
十三完成签到 ,获得积分10
2秒前
香菜完成签到,获得积分10
3秒前
fdwonder完成签到,获得积分10
3秒前
你学习了吗我学不了一点完成签到 ,获得积分10
4秒前
Carrots完成签到 ,获得积分10
4秒前
巴音布鲁克完成签到 ,获得积分10
5秒前
orange完成签到 ,获得积分10
6秒前
阔达静曼完成签到 ,获得积分10
6秒前
xixi完成签到 ,获得积分10
6秒前
小白t73完成签到 ,获得积分10
7秒前
小二郎应助斯文黎云采纳,获得10
7秒前
啊琴黎完成签到 ,获得积分10
8秒前
端庄亦巧完成签到 ,获得积分10
9秒前
典雅的皓轩完成签到 ,获得积分10
10秒前
ZTLlele完成签到 ,获得积分10
11秒前
Pauline完成签到 ,获得积分10
11秒前
吗喽完成签到 ,获得积分10
11秒前
Passer完成签到 ,获得积分10
12秒前
可一可再完成签到 ,获得积分10
13秒前
13秒前
14秒前
WenMi发布了新的文献求助100
15秒前
sonicker完成签到 ,获得积分10
15秒前
qianyixingchen完成签到 ,获得积分10
16秒前
冷静的毛豆完成签到,获得积分10
17秒前
完美大米完成签到 ,获得积分10
18秒前
GLLHHH完成签到 ,获得积分10
18秒前
许伟洋完成签到 ,获得积分10
19秒前
19秒前
分析完成签到 ,获得积分10
19秒前
Fran07发布了新的文献求助10
19秒前
孤芳自赏IrisKing完成签到 ,获得积分10
21秒前
星辰大海应助Wan采纳,获得30
23秒前
Dave完成签到,获得积分10
23秒前
嘻嘻发布了新的文献求助10
24秒前
李健的小迷弟应助Dave采纳,获得10
27秒前
薄荷冷饮完成签到 ,获得积分10
29秒前
32秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
APA handbook of humanistic and existential psychology: Clinical and social applications (Vol. 2) 2000
Cronologia da história de Macau 1600
Handbook on Climate Mobility 1111
Lloyd's Register of Shipping's Approach to the Control of Incidents of Brittle Fracture in Ship Structures 1000
BRITTLE FRACTURE IN WELDED SHIPS 1000
Intentional optical interference with precision weapons (in Russian) Преднамеренные оптические помехи высокоточному оружию 1000
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 纳米技术 计算机科学 化学工程 生物化学 物理 复合材料 内科学 催化作用 物理化学 光电子学 细胞生物学 基因 电极 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6176451
求助须知:如何正确求助?哪些是违规求助? 8004142
关于积分的说明 16648095
捐赠科研通 5279641
什么是DOI,文献DOI怎么找? 2815237
邀请新用户注册赠送积分活动 1794973
关于科研通互助平台的介绍 1660279