Curiosity-driven Exploration by Self-supervised Prediction

好奇心 一般化 计算机科学 人工智能 编码(集合论) 空格(标点符号) 人机交互 特征(语言学) 机器学习 心理学 社会心理学 数学 程序设计语言 数学分析 语言学 哲学 集合(抽象数据类型) 操作系统
作者
Pathak, Deepak,Agrawal, Pulkit,Efros, Alexei A.,Darrell, Trevor
出处
期刊:Cornell University - arXiv 被引量:1
标识
DOI:10.48550/arxiv.1705.05363
摘要

In many real-world scenarios, rewards extrinsic to the agent are extremely sparse, or absent altogether. In such cases, curiosity can serve as an intrinsic reward signal to enable the agent to explore its environment and learn skills that might be useful later in its life. We formulate curiosity as the error in an agent's ability to predict the consequence of its own actions in a visual feature space learned by a self-supervised inverse dynamics model. Our formulation scales to high-dimensional continuous state spaces like images, bypasses the difficulties of directly predicting pixels, and, critically, ignores the aspects of the environment that cannot affect the agent. The proposed approach is evaluated in two environments: VizDoom and Super Mario Bros. Three broad settings are investigated: 1) sparse extrinsic reward, where curiosity allows for far fewer interactions with the environment to reach the goal; 2) exploration with no extrinsic reward, where curiosity pushes the agent to explore more efficiently; and 3) generalization to unseen scenarios (e.g. new levels of the same game) where the knowledge gained from earlier experience helps the agent explore new places much faster than starting from scratch. Demo video and code available at https://pathak22.github.io/noreward-rl/

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
隐形曼青应助cbp560采纳,获得10
1秒前
4秒前
5秒前
斯文败类应助忧心的不言采纳,获得10
5秒前
5秒前
从容雨筠完成签到,获得积分10
6秒前
6秒前
紫罗风韵完成签到,获得积分10
8秒前
柒辞发布了新的文献求助10
9秒前
9秒前
ff发布了新的文献求助10
9秒前
qin发布了新的文献求助10
10秒前
luguo发布了新的文献求助10
11秒前
12秒前
镜芳空完成签到,获得积分20
12秒前
背后的诗双应助zhangzhibin采纳,获得10
14秒前
栗子完成签到,获得积分10
14秒前
15秒前
Ava应助li采纳,获得10
16秒前
嘻嘻哈哈完成签到 ,获得积分10
16秒前
16秒前
星辰大海应助chemchen采纳,获得10
17秒前
zzd完成签到,获得积分20
17秒前
大个应助镜芳空采纳,获得10
21秒前
21秒前
22秒前
ff完成签到,获得积分10
22秒前
huangxiaoniu完成签到,获得积分10
23秒前
tangmu完成签到,获得积分10
23秒前
852应助yaooo采纳,获得10
25秒前
Sicecream完成签到,获得积分10
26秒前
小二郎应助hh采纳,获得10
26秒前
aibaa完成签到,获得积分10
26秒前
26秒前
27秒前
27秒前
猪猪hero发布了新的文献求助10
28秒前
Owen应助morry5007采纳,获得10
28秒前
万能图书馆应助岁月静好采纳,获得10
28秒前
drzhiluo完成签到,获得积分10
29秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Research for Social Workers 1000
Signals, Systems, and Signal Processing 510
Discrete-Time Signals and Systems 510
Kinesiophobia : a new view of chronic pain behavior 500
《The Emergency Nursing High-Yield Guide》 (或简称为 Emergency Nursing High-Yield Essentials) 500
The Dance of Butch/Femme: The Complementarity and Autonomy of Lesbian Gender Identity 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5889286
求助须知:如何正确求助?哪些是违规求助? 6653839
关于积分的说明 15713301
捐赠科研通 5010687
什么是DOI,文献DOI怎么找? 2698933
邀请新用户注册赠送积分活动 1643801
关于科研通互助平台的介绍 1596427