Trust Region Policy Optimization

超参数 单调函数 信任域 多样性(控制论) 方案(数学) 非线性系统 计算机科学 数学优化 人工神经网络 深层神经网络 人工智能 强化学习 优化算法 数学 数学分析 物理 量子力学 半径 计算机安全
作者
John Schulman,Sergey Levine,Pieter Abbeel,Michael I. Jordan,Philipp Moritz
出处
期刊:Cornell University - arXiv 卷期号:: 1889-1897 被引量:3120
标识
DOI:10.48550/arxiv.1502.05477
摘要

We describe an iterative procedure for optimizing policies, with guaranteed monotonic improvement. By making several approximations to the theoretically-justified procedure, we develop a practical algorithm, called Trust Region Policy Optimization (TRPO). This algorithm is similar to natural policy gradient methods and is effective for optimizing large nonlinear policies such as neural networks. Our experiments demonstrate its robust performance on a wide variety of tasks: learning simulated robotic swimming, hopping, and walking gaits; and playing Atari games using images of the screen as input. Despite its approximations that deviate from the theory, TRPO tends to give monotonic improvement, with little tuning of hyperparameters.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
ttt发布了新的文献求助30
刚刚
1234发布了新的文献求助10
1秒前
小高同学发布了新的文献求助10
1秒前
赘婿应助123456采纳,获得10
1秒前
2秒前
顾矜应助爱笑灵雁采纳,获得10
2秒前
li完成签到 ,获得积分10
2秒前
wwwart发布了新的文献求助10
3秒前
ting发布了新的文献求助10
3秒前
羰醛完成签到,获得积分10
5秒前
英俊的铭应助qidada采纳,获得10
6秒前
fj发布了新的文献求助10
6秒前
南柯一梦发布了新的文献求助10
7秒前
9秒前
10秒前
俊逸芸遥完成签到,获得积分10
10秒前
李梁发布了新的文献求助10
10秒前
神勇千风发布了新的文献求助30
10秒前
烟花应助庄严采纳,获得10
11秒前
冰糖葫芦娃完成签到 ,获得积分10
11秒前
华仔应助追寻的巧曼采纳,获得10
11秒前
12秒前
Akim应助zou采纳,获得30
12秒前
老艺人发布了新的文献求助10
13秒前
Lei发布了新的文献求助10
13秒前
无所谓的啦完成签到,获得积分10
13秒前
wang发布了新的文献求助10
13秒前
Jasper应助王博涵采纳,获得50
14秒前
CodeCraft应助高斯采纳,获得10
14秒前
15秒前
Hello应助无限的绮晴采纳,获得10
15秒前
15秒前
香蕉觅云应助风一起采纳,获得10
16秒前
李爱国应助机灵一手采纳,获得10
17秒前
爱笑灵雁发布了新的文献求助10
18秒前
领导范儿应助qidada采纳,获得10
19秒前
冷傲曼冬完成签到,获得积分10
19秒前
19秒前
呼呼发布了新的文献求助10
20秒前
fj关闭了fj文献求助
20秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Theoretical modelling of unbonded flexible pipe cross-sections 2000
List of 1,091 Public Pension Profiles by Region 1581
Encyclopedia of Agriculture and Food Systems Third Edition 1500
Specialist Periodical Reports - Organometallic Chemistry Organometallic Chemistry: Volume 46 1000
Current Trends in Drug Discovery, Development and Delivery (CTD4-2022) 800
Minimizing the Effects of Phase Quantization Errors in an Electronically Scanned Array 600
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 物理化学 基因 遗传学 催化作用 冶金 量子力学 光电子学
热门帖子
关注 科研通微信公众号,转发送积分 5533210
求助须知:如何正确求助?哪些是违规求助? 4621604
关于积分的说明 14579314
捐赠科研通 4561659
什么是DOI,文献DOI怎么找? 2499451
邀请新用户注册赠送积分活动 1479304
关于科研通互助平台的介绍 1450504