发布文献求助

Towards Better Interpretability in Deep Q-Networks

可解释性过度拟合人工智能强化学习计算机科学步伐多样性（控制论）机器学习深度学习人工神经网络钥匙（锁）深层神经网络网络体系结构价值网络价值（数学）业务营销地理计算机安全大地测量学商业模式

作者

Raghuram Mandyam Annasamy,Katia Sycara

出处

期刊：Proceedings of the ... AAAI Conference on Artificial Intelligence [Association for the Advancement of Artificial Intelligence (AAAI)]
日期：2019-07-17 卷期号：33 (01): 4561-4569 被引量：51

链接

aaai.org arxiv.org arxiv.orgdoi.org

标识

DOI：10.1609/aaai.v33i01.33014561

摘要

Deep reinforcement learning techniques have demonstrated superior performance in a wide variety of environments. As improvements in training algorithms continue at a brisk pace, theoretical or empirical studies on understanding what these networks seem to learn, are far behind. In this paper we propose an interpretable neural network architecture for Q-learning which provides a global explanation of the model’s behavior using key-value memories, attention and reconstructible embeddings. With a directed exploration strategy, our model can reach training rewards comparable to the state-of-the-art deep Q-learning models. However, results suggest that the features extracted by the neural network are extremely shallow and subsequent testing using out-of-sample examples shows that the agent can easily overfit to trajectories seen during training.

求助该文献

最长约 10秒，即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 历史今天

更新

2025年影响因子查询已上线 (2025-6-18)

更新

PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: cathylll完成签到，获得积分10

刚刚; 科目三上传了应助文件

1秒前; 刘肥肥发布了新的文献求助10

3秒前; Sunny关闭了Sunny的文献求助

3秒前; 田様的应助被添添采纳，获得10

4秒前; Fangyuan完成签到，获得积分10

4秒前; 爆米花上传了应助文件

4秒前; Ava上传了应助文件

5秒前; Hello上传了应助文件

5秒前; Hilda007的应助被阮听安采纳，获得10

5秒前; 绺妙发布了新的文献求助10

6秒前; cathylll发布了新的文献求助10

6秒前; Orange上传了应助文件

6秒前; yang_keai完成签到，获得积分10

6秒前; HY完成签到，获得积分10

9秒前; 上官若男的应助被chiweiyoung采纳，获得10

9秒前; chocolate完成签到，获得积分10

9秒前; Lucas的应助被刘肥肥采纳，获得10

11秒前; 鸿渐于陆发布了新的文献求助10

11秒前; 吴西西发布了新的文献求助30

11秒前; 东单的单车完成签到，获得积分10

12秒前; 夏沫发布了新的文献求助10

12秒前; 小董不懂发布了新的文献求助10

12秒前; yuedinglyanke完成签到，获得积分10

13秒前; 李健的应助被honda采纳，获得10

13秒前; 小蘑菇上传了应助文件

13秒前; 嘻嘻完成签到，获得积分10

13秒前; 我是老大的应助被生动项链采纳，获得30

14秒前; Hello上传了应助文件

14秒前; 爆米花的应助被呃呃呃呃GG采纳，获得10

15秒前; 小蘑菇上传了应助文件

15秒前; 研友_VZG7GZ上传了应助文件

16秒前; 马轩完成签到，获得积分10

17秒前; 英姑上传了应助文件

17秒前; Eric发布了新的文献求助10

17秒前; wang关闭了wang的文献求助

17秒前; 玩命的果汁发布了新的文献求助10

18秒前; showitt完成签到，获得积分10

18秒前; 情怀的应助被研友_ZzrWKZ采纳，获得10

18秒前; 李健的应助被lxg采纳，获得10

20秒前

高分求助中: Encyclopedia of Quaternary Science Third edition 2025 12000; (应助此贴封号)【重要！！请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000; HIGH DYNAMIC RANGE CMOS IMAGE SENSORS FOR LOW LIGHT APPLICATIONS 1500; Constitutional and Administrative Law 1000; The Social Work Ethics Casebook: Cases and Commentary (revised 2nd ed.). Frederic G. Reamer 800; Holistic Discourse Analysis 600; Vertébrés continentaux du Crétacé supérieur de Provence (Sud-Est de la France) 600

热门求助领域（近24小时）

热门帖子: 关注科研通微信公众号，转发送积分 5350613; 求助须知：如何正确求助？哪些是违规求助？ 4483988; 关于积分的说明 13957602; 捐赠科研通 4383396; 什么是DOI，文献DOI怎么找？ 2408306; 邀请新用户注册赠送积分活动 1400952; 关于科研通互助平台的介绍 1374365

今日热心研友

昏睡的蟠桃

懵懂的采梦

注：热心度 = 本日应助数 + 本日被采纳获取积分÷10

Copyright © 2020-2025 AbleSci.COM, 科研通, All Right Reserved

科研通是非营利科研互助平台，不忘初心，为科研助力

本站互助的所有文件仅供个人学习研究用，禁止任何人把求助的所得文献进行盈利或传播

皖ICP备2024041134号-1

皖公网安备34019202002308

科研通【文献互助QQ群】：如果您有特殊求助，或发布求助超过24小时未得到应助，可加群求助，群号：941272744【点击一键加群】

科研通【志愿服务QQ群】：如果您热爱文献互助，有热心愿意为更多人服务，请加入小伙伴群，点击申请加入

关注微信服务号

科研通