Learning Without State-Estimation in Partially Observable Markovian Decision Processes

强化学习 马尔可夫决策过程 可见的 计算机科学 部分可观测马尔可夫决策过程 国家(计算机科学) 马尔可夫过程 状态空间 数学优化 人工智能 班级(哲学) 数学 算法 统计 物理 量子力学
作者
Satinder Singh,Tommi Jaakkola,Michael I. Jordan
出处
期刊:Elsevier eBooks [Elsevier]
卷期号:: 284-292 被引量:291
标识
DOI:10.1016/b978-1-55860-335-6.50042-8
摘要

Reinforcement learning (RL) algorithms provide a sound theoretical basis for building learning control architectures for embedded agents. Unfortunately all of the theory and much of the practice (see Barto et al., 1983, for an exception) of RL is limited to Markovian decision processes (MDPs). Many real-world decision tasks, however, are inherently non-Markovian, i.e., the state of the environment is only incompletely known to the learning agent. In this paper we consider only partially observable MDPs (POMDPs), a useful class of non-Markovian decision processes. Most previous approaches to such problems have combined computationally expensive state-estimation techniques with learning control. This paper investigates learning in POMDPs without resorting to any form of state estimation. We present results about what TD(0) and Q-learning will do when applied to POMDPs. It is shown that the conventional discounted RL framework is inadequate to deal with POMDPs. Finally we develop a new framework for learning without state-estimation in POMDPs by including stochastic policies in the search space, and by defining the value or utility of a distribution over states.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
天涯倦客发布了新的文献求助10
2秒前
彪行天下完成签到,获得积分10
3秒前
默默毛豆完成签到,获得积分10
5秒前
12秒前
饱满语风完成签到 ,获得积分10
13秒前
华仔应助巴恩斯图书馆采纳,获得10
13秒前
liguanyu1078完成签到,获得积分10
15秒前
gangxiaxuan完成签到,获得积分10
17秒前
天涯倦客完成签到,获得积分10
23秒前
医路前行完成签到 ,获得积分10
24秒前
stiger完成签到,获得积分10
25秒前
喜看财经完成签到,获得积分10
28秒前
鲸鱼打滚完成签到 ,获得积分10
30秒前
喜看财经发布了新的文献求助10
32秒前
cdercder应助科研通管家采纳,获得20
37秒前
昏睡的蟠桃应助科研通管家采纳,获得200
37秒前
谨慎鹏涛完成签到 ,获得积分10
41秒前
shuangfeng1853完成签到 ,获得积分10
41秒前
充电宝应助xiangrikui采纳,获得10
44秒前
xiangrikui完成签到,获得积分0
53秒前
55秒前
嘟嘟完成签到 ,获得积分10
58秒前
xiangrikui发布了新的文献求助10
58秒前
Tibbar完成签到 ,获得积分10
1分钟前
ZHANG完成签到 ,获得积分10
1分钟前
1分钟前
lql完成签到 ,获得积分10
1分钟前
如沐春风发布了新的文献求助10
1分钟前
科研通AI5应助yiyi采纳,获得10
1分钟前
最美夕阳红完成签到,获得积分10
1分钟前
nini完成签到,获得积分10
1分钟前
科研狗完成签到 ,获得积分0
1分钟前
今我来思完成签到 ,获得积分10
1分钟前
香锅不要辣完成签到 ,获得积分10
1分钟前
1分钟前
碧蓝雁风完成签到 ,获得积分10
1分钟前
林结衣完成签到,获得积分10
1分钟前
刘国建郭菱香完成签到 ,获得积分10
1分钟前
XXXXX完成签到 ,获得积分10
1分钟前
licheng完成签到,获得积分10
1分钟前
高分求助中
传播真理奋斗不息——中共中央编译局成立50周年纪念文集(1953—2003) 700
Technologies supporting mass customization of apparel: A pilot project 600
武汉作战 石川达三 500
Chinesen in Europa – Europäer in China: Journalisten, Spione, Studenten 500
Arthur Ewert: A Life for the Comintern 500
China's Relations With Japan 1945-83: The Role of Liao Chengzhi // Kurt Werner Radtke 500
Two Years in Peking 1965-1966: Book 1: Living and Teaching in Mao's China // Reginald Hunt 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3811747
求助须知:如何正确求助?哪些是违规求助? 3355995
关于积分的说明 10379115
捐赠科研通 3072963
什么是DOI,文献DOI怎么找? 1688145
邀请新用户注册赠送积分活动 811850
科研通“疑难数据库(出版商)”最低求助积分说明 766877