Curiosity-driven Exploration by Self-supervised Prediction

好奇心 一般化 计算机科学 人工智能 编码(集合论) 空格(标点符号) 人机交互 特征(语言学) 机器学习 心理学 社会心理学 数学 程序设计语言 数学分析 语言学 哲学 集合(抽象数据类型) 操作系统
作者
Pathak, Deepak,Agrawal, Pulkit,Efros, Alexei A.,Darrell, Trevor
出处
期刊:Cornell University - arXiv 被引量:1
标识
DOI:10.48550/arxiv.1705.05363
摘要

In many real-world scenarios, rewards extrinsic to the agent are extremely sparse, or absent altogether. In such cases, curiosity can serve as an intrinsic reward signal to enable the agent to explore its environment and learn skills that might be useful later in its life. We formulate curiosity as the error in an agent's ability to predict the consequence of its own actions in a visual feature space learned by a self-supervised inverse dynamics model. Our formulation scales to high-dimensional continuous state spaces like images, bypasses the difficulties of directly predicting pixels, and, critically, ignores the aspects of the environment that cannot affect the agent. The proposed approach is evaluated in two environments: VizDoom and Super Mario Bros. Three broad settings are investigated: 1) sparse extrinsic reward, where curiosity allows for far fewer interactions with the environment to reach the goal; 2) exploration with no extrinsic reward, where curiosity pushes the agent to explore more efficiently; and 3) generalization to unseen scenarios (e.g. new levels of the same game) where the knowledge gained from earlier experience helps the agent explore new places much faster than starting from scratch. Demo video and code available at https://pathak22.github.io/noreward-rl/
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
华仔应助han采纳,获得10
1秒前
shadow发布了新的文献求助10
6秒前
田様应助科研通管家采纳,获得10
6秒前
科目三应助科研通管家采纳,获得10
6秒前
bkagyin应助科研通管家采纳,获得10
6秒前
orixero应助科研通管家采纳,获得10
6秒前
顾矜应助科研通管家采纳,获得10
6秒前
科研通AI5应助科研通管家采纳,获得10
6秒前
科研通AI5应助科研通管家采纳,获得10
6秒前
zho应助科研通管家采纳,获得10
6秒前
cdercder应助ComeOn采纳,获得10
7秒前
10秒前
12秒前
14秒前
15秒前
科研通AI5应助故意的睫毛膏采纳,获得100
15秒前
yuaner发布了新的文献求助10
16秒前
1234发布了新的文献求助10
19秒前
欢喜的早晨完成签到,获得积分10
19秒前
CodeCraft应助yuaner采纳,获得10
20秒前
21秒前
重要奇迹发布了新的文献求助10
21秒前
28秒前
迷了路的猫完成签到,获得积分10
30秒前
柒z完成签到,获得积分10
31秒前
重要奇迹完成签到,获得积分20
31秒前
隐形曼青应助1234采纳,获得10
32秒前
32秒前
一吃就饱发布了新的文献求助10
33秒前
一吃就饱完成签到,获得积分10
42秒前
45秒前
充电宝应助故意的睫毛膏采纳,获得10
47秒前
科目三应助词语采纳,获得10
49秒前
小鹿发布了新的文献求助10
49秒前
在水一方应助小瞎子_Zora采纳,获得10
50秒前
善良的火完成签到 ,获得积分10
53秒前
53秒前
qianmo完成签到,获得积分10
53秒前
Hello应助hrj采纳,获得30
55秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Continuum Thermodynamics and Material Modelling 2000
Encyclopedia of Geology (2nd Edition) 2000
105th Edition CRC Handbook of Chemistry and Physics 1600
Maneuvering of a Damaged Navy Combatant 650
Периодизация спортивной тренировки. Общая теория и её практическое применение 310
Mixing the elements of mass customisation 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3778938
求助须知:如何正确求助?哪些是违规求助? 3324589
关于积分的说明 10218785
捐赠科研通 3039563
什么是DOI,文献DOI怎么找? 1668321
邀请新用户注册赠送积分活动 798646
科研通“疑难数据库(出版商)”最低求助积分说明 758440