标题 |
Neural Temporal-Difference and Q-Learning Provably Converge to Global Optima
神经时差和Q学习可证明地收敛于全局最优
相关领域
时差学习
人工神经网络
次线性函数
强化学习
趋同(经济学)
分歧(语言学)
非线性系统
贝尔曼方程
计算机科学
功能(生物学)
增强学习
全局优化
数学优化
数学
应用数学
人工智能
经济
物理
数学分析
哲学
语言学
生物
进化生物学
量子力学
经济增长
|
网址 | |
DOI | |
其它 |
期刊:Cornell University - arXiv 作者:Yongchang Liu; Zhuoran Yang; Jason T. Lee; Zhaoran Wang 出版日期:2019-05-24 |
求助人 | |
下载 | |
温馨提示:该文献已被科研通 学术中心 收录,前往查看
科研通『学术中心』是文献索引库,收集文献的基本信息(如标题、摘要、期刊、作者、被引量等),不提供下载功能。如需下载文献全文,请通过文献求助获取。
|