Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

强化学习 计算机科学 概率逻辑 机器学习 元学习(计算机科学) 人工智能 任务(项目管理) 背景(考古学) 推论 样品(材料) 工程类 色谱法 生物 古生物学 化学 系统工程
作者
Kate Rakelly,Aurick Zhou,Deirdre Quillen,Chelsea Finn,Sergey Levine
摘要

Deep reinforcement learning algorithms require large amounts of experience to learn an individual task. While in principle meta-reinforcement learning (meta-RL) algorithms enable agents to learn new skills from small amounts of experience, several major challenges preclude their practicality. Current methods rely heavily on on-policy experience, limiting their sample efficiency. The also lack mechanisms to reason about task uncertainty when adapting to new tasks, limiting their effectiveness in sparse reward problems. In this paper, we address these challenges by developing an off-policy meta-RL algorithm that disentangles task inference and control. In our approach, we perform online probabilistic filtering of latent task variables to infer how to solve a new task from small amounts of experience. This probabilistic interpretation enables posterior sampling for structured and efficient exploration. We demonstrate how to integrate these task variables with off-policy RL algorithms to achieve both meta-training and adaptation efficiency. Our method outperforms prior algorithms in sample efficiency by 20-100X as well as in asymptotic performance on several meta-RL benchmarks.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
刚刚
满城烟沙完成签到 ,获得积分10
1秒前
1秒前
Lemuel完成签到,获得积分10
2秒前
2秒前
不对也没错完成签到,获得积分10
2秒前
好运来发布了新的文献求助10
3秒前
3秒前
香蕉觅云应助研友_Zza3qn采纳,获得10
3秒前
暖暖发布了新的文献求助10
4秒前
4秒前
米夏完成签到 ,获得积分10
5秒前
5秒前
鱼香rose盖饭完成签到,获得积分10
6秒前
qp完成签到,获得积分10
6秒前
舟夏发布了新的文献求助10
6秒前
7秒前
6C7发布了新的文献求助10
8秒前
8秒前
lulu发布了新的文献求助10
9秒前
蝈蝈完成签到,获得积分20
9秒前
chinning发布了新的文献求助10
9秒前
wujiasheng发布了新的文献求助10
10秒前
陌路完成签到,获得积分10
11秒前
paperneedddddd完成签到,获得积分10
12秒前
sars518举报求助违规成功
12秒前
倩迷谜举报求助违规成功
12秒前
yar举报求助违规成功
12秒前
12秒前
12秒前
12秒前
13秒前
研友_VZG7GZ应助暖暖采纳,获得10
13秒前
尉迟仰发布了新的文献求助10
14秒前
Bertie完成签到,获得积分10
15秒前
单于思雁完成签到,获得积分10
15秒前
科研难应助陌路采纳,获得10
15秒前
在意i完成签到,获得积分10
15秒前
CipherSage应助须臾采纳,获得10
15秒前
高分求助中
One Man Talking: Selected Essays of Shao Xunmei, 1929–1939 1000
Yuwu Song, Biographical Dictionary of the People's Republic of China 700
[Lambert-Eaton syndrome without calcium channel autoantibodies] 520
The three stars each: the Astrolabes and related texts 500
Revolutions 400
Diffusion in Solids: Key Topics in Materials Science and Engineering 400
Phase Diagrams: Key Topics in Materials Science and Engineering 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2452032
求助须知:如何正确求助?哪些是违规求助? 2124840
关于积分的说明 5408275
捐赠科研通 1853563
什么是DOI,文献DOI怎么找? 921883
版权声明 562273
科研通“疑难数据库(出版商)”最低求助积分说明 493140