亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

OnActor-Critic Algorithms

参数化复杂度 数学 趋同(经济学) 马尔可夫决策过程 子空间拓扑 班级(哲学) 算法 国家(计算机科学) 数学优化 计算机科学 人工智能 马尔可夫过程 经济增长 统计 数学分析 经济
作者
Vijay R. Konda,John N. Tsitsiklis
出处
期刊:Siam Journal on Control and Optimization [Society for Industrial and Applied Mathematics]
卷期号:42 (4): 1143-1166 被引量:685
标识
DOI:10.1137/s0363012901385691
摘要

In this article, we propose and analyze a class of actor-critic algorithms. These are two-time-scale algorithms in which the critic uses temporal difference learning with a linearly parameterized approximation architecture, and the actor is updated in an approximate gradient direction, based on information provided by the critic. We show that the features for the critic should ideally span a subspace prescribed by the choice of parameterization of the actor. We study actor-critic algorithms for Markov decision processes with Polish state and action spaces. We state and prove two results regarding their convergence.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
26秒前
31秒前
充电宝应助科研通管家采纳,获得10
1分钟前
1分钟前
1分钟前
1分钟前
牛八先生完成签到,获得积分10
1分钟前
朴素的山蝶完成签到 ,获得积分10
2分钟前
MQQ完成签到 ,获得积分10
2分钟前
凉面完成签到 ,获得积分10
2分钟前
3分钟前
hi_traffic完成签到,获得积分10
3分钟前
领导范儿应助苑阿宇采纳,获得10
3分钟前
研友_892kOL发布了新的文献求助10
3分钟前
Air完成签到 ,获得积分10
3分钟前
Cathy完成签到,获得积分10
4分钟前
4分钟前
4分钟前
4分钟前
苑阿宇发布了新的文献求助10
4分钟前
4分钟前
研究生完成签到 ,获得积分10
4分钟前
会编程真是太好了完成签到 ,获得积分10
4分钟前
鬼见愁应助科研通管家采纳,获得20
5分钟前
科研通AI2S应助科研通管家采纳,获得10
5分钟前
5分钟前
科研通AI5应助研友_892kOL采纳,获得10
5分钟前
5分钟前
5分钟前
开心的瘦子完成签到,获得积分20
5分钟前
5分钟前
5分钟前
mmmin发布了新的文献求助10
5分钟前
WebCasa应助mmmin采纳,获得10
6分钟前
钱小豪应助mmmin采纳,获得10
6分钟前
mmmin完成签到,获得积分20
6分钟前
6分钟前
6分钟前
斯文败类应助阔达的未来采纳,获得10
6分钟前
Eleven应助阔达的未来采纳,获得10
6分钟前
高分求助中
(禁止应助)【重要!!请各位详细阅读】【科研通的精品贴汇总】 10000
Semantics for Latin: An Introduction 1099
Biology of the Indian Stingless Bee: Tetragonula iridipennis Smith 1000
Robot-supported joining of reinforcement textiles with one-sided sewing heads 680
Thermal Quadrupoles: Solving the Heat Equation through Integral Transforms 500
SPSS for Windows Step by Step: A Simple Study Guide and Reference, 17.0 Update (10th Edition) 500
PBSM: Predictive Bi-Preference Stable Matching in Spatial Crowdsourcing 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4124499
求助须知:如何正确求助?哪些是违规求助? 3662402
关于积分的说明 11590356
捐赠科研通 3362598
什么是DOI,文献DOI怎么找? 1847719
邀请新用户注册赠送积分活动 912036
科研通“疑难数据库(出版商)”最低求助积分说明 827849