Neural Temporal-Difference and Q-Learning Provably Converge to Global Optima

时差学习 人工神经网络 次线性函数 强化学习 趋同(经济学) 分歧(语言学) 非线性系统 贝尔曼方程 计算机科学 功能(生物学) 增强学习 全局优化 数学优化 数学 应用数学 人工智能 经济 物理 数学分析 哲学 语言学 生物 进化生物学 量子力学 经济增长
作者
Qi Cai,Zhuoran Yang,Jason D. Lee,Zhaoran Wang
出处
期刊:Cornell University - arXiv 被引量:17
标识
DOI:10.48550/arxiv.1905.10027
摘要

Temporal-difference learning (TD), coupled with neural networks, is among the most fundamental building blocks of deep reinforcement learning. However, due to the nonlinearity in value function approximation, such a coupling leads to nonconvexity and even divergence in optimization. As a result, the global convergence of neural TD remains unclear. In this paper, we prove for the first time that neural TD converges at a sublinear rate to the global optimum of the mean-squared projected Bellman error for policy evaluation. In particular, we show how such global convergence is enabled by the overparametrization of neural networks, which also plays a vital role in the empirical success of neural TD. Beyond policy evaluation, we establish the global convergence of neural (soft) Q-learning, which is further connected to that of policy gradient algorithms.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
飛鳥发布了新的文献求助10
1秒前
Hao应助sygtl采纳,获得10
2秒前
3秒前
4秒前
会笑的蜗牛完成签到 ,获得积分10
8秒前
11秒前
李健的小迷弟应助mjr采纳,获得10
11秒前
221完成签到,获得积分10
14秒前
不取名字完成签到 ,获得积分10
14秒前
lixuegang2023完成签到,获得积分10
15秒前
谁动了我钱包完成签到,获得积分10
15秒前
灿华完成签到 ,获得积分10
16秒前
饭特稀完成签到 ,获得积分10
17秒前
19秒前
领导范儿应助飛鳥采纳,获得10
19秒前
20秒前
SciGPT应助谨慎长颈鹿采纳,获得10
21秒前
无花果应助xiaomingdoc采纳,获得10
22秒前
23秒前
畅快白梦完成签到,获得积分10
25秒前
26秒前
刘贝贝完成签到,获得积分10
26秒前
26秒前
lixuegang2023发布了新的文献求助10
30秒前
Mipaa完成签到,获得积分10
31秒前
32秒前
完美的一天完成签到,获得积分10
35秒前
36秒前
乐观绿海发布了新的文献求助10
37秒前
38秒前
研友_VZG7GZ应助sygtl采纳,获得10
41秒前
看看发布了新的文献求助10
41秒前
L912294993应助随心采纳,获得30
41秒前
42秒前
43秒前
44秒前
爱鱼人士应助毛豆zz采纳,获得20
49秒前
49秒前
50秒前
mjr发布了新的文献求助10
51秒前
高分求助中
【本贴是提醒信息,请勿应助】请在求助之前详细阅读求助说明!!!! 20000
One Man Talking: Selected Essays of Shao Xunmei, 1929–1939 1000
The Three Stars Each: The Astrolabes and Related Texts 900
Yuwu Song, Biographical Dictionary of the People's Republic of China 800
Multifunctional Agriculture, A New Paradigm for European Agriculture and Rural Development 600
Challenges, Strategies, and Resiliency in Disaster and Risk Management 500
Bernd Ziesemer - Maos deutscher Topagent: Wie China die Bundesrepublik eroberte 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2482857
求助须知:如何正确求助?哪些是违规求助? 2145091
关于积分的说明 5472237
捐赠科研通 1867418
什么是DOI,文献DOI怎么找? 928239
版权声明 563073
科研通“疑难数据库(出版商)”最低求助积分说明 496633