Optimal Values Selection of Q-learning Parameters in Stochastic Mazes

路径(计算) 贴现 价值(数学) 数学 选择(遗传算法) 趋同(经济学) 人工智能 不变(物理) 收敛速度 群(周期表) 计算机科学 变量(数学) 因子(编程语言) 统计 数学优化 机器学习 经济 计算机网络 数学分析 频道(广播) 化学 有机化学 财务 数学物理 程序设计语言 经济增长
作者
Xiaolin Zhou
出处
期刊:Journal of physics [IOP Publishing]
卷期号:2386 (1): 012037-012037 被引量:2
标识
DOI:10.1088/1742-6596/2386/1/012037
摘要

Abstract The model-free characteristic of the Q-learning algorithm, without obtaining information about the environment and being available for agents to learn by themselves, enables Q-learning to be widely applied to path planning fields. Nonetheless, the selection of parameter values will have a crucial impact on the results. In this paper, how to determine an appropriate value of learning rate and discount factor and these parameters’ effect on the overall results will be presented. The agents with different learning rate or discount factor values will perform in randomly generated mazes, the results of which will be aggregated and compared. When the learning rate equals 0.9, under the condition of setting the learning rate as variable and discount factor as invariant, the aggregated data of 0.9 can reach convergence way more quickly than in other settings (0.6, 0.3, 0.1); when the discount factor equals 0.9 and the experiment follows the unique variable principle, the aggregated data of 0.9 searches for shorter path length and faster than other groups (0.6, 0.3, 0.1); when both the learning rate and discount factor are set to 0.9 – other groups are 1.0, 0.1, and 0 – the group of 0.9 is more stable than the group of 0.1 and shows convergence, which does not appear in the group of 1.0 and 0, within 80 iterations.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
十二完成签到,获得积分10
刚刚
1秒前
所所应助柠A采纳,获得10
2秒前
传统的凝天完成签到 ,获得积分10
2秒前
楠木完成签到 ,获得积分10
2秒前
酷波er应助linxue采纳,获得10
2秒前
LLL完成签到,获得积分10
2秒前
懦弱的乐蕊完成签到 ,获得积分10
2秒前
2秒前
英俊的铭应助倪妮采纳,获得10
2秒前
Mike001发布了新的文献求助10
3秒前
派大珊发布了新的文献求助10
4秒前
SQL完成签到 ,获得积分10
5秒前
66完成签到 ,获得积分10
5秒前
Mike001发布了新的文献求助10
5秒前
自觉的白易完成签到 ,获得积分20
6秒前
研友_5Z4ZA5完成签到,获得积分10
6秒前
6秒前
tcklikai完成签到,获得积分10
6秒前
顾矜应助STAN采纳,获得10
6秒前
Mike001发布了新的文献求助10
6秒前
ziyi完成签到,获得积分20
8秒前
8秒前
Mike001发布了新的文献求助10
8秒前
崇林同学完成签到 ,获得积分10
8秒前
8秒前
mervin完成签到,获得积分10
8秒前
Gitope完成签到,获得积分10
9秒前
10秒前
听南发布了新的文献求助10
11秒前
12秒前
皮蛋努力科研完成签到 ,获得积分10
12秒前
pera完成签到,获得积分10
12秒前
QQD完成签到,获得积分10
12秒前
大力婷完成签到,获得积分10
12秒前
小马甲应助高大羿采纳,获得10
13秒前
GAJ完成签到,获得积分10
14秒前
14秒前
JMao完成签到,获得积分10
15秒前
健康的勒完成签到,获得积分10
16秒前
高分求助中
The three stars each : the Astrolabes and related texts 1070
Manual of Clinical Microbiology, 4 Volume Set (ASM Books) 13th Edition 1000
Boris Pesce - Gli impiegati della Fiat dal 1955 al 1999 un percorso nella memoria 500
[Lambert-Eaton syndrome without calcium channel autoantibodies] 500
少脉山油柑叶的化学成分研究 500
Recherches Ethnographiques sue les Yao dans la Chine du Sud 500
Aspect and Predication: The Semantics of Argument Structure 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2401842
求助须知:如何正确求助?哪些是违规求助? 2101283
关于积分的说明 5298710
捐赠科研通 1828869
什么是DOI,文献DOI怎么找? 911607
版权声明 560339
科研通“疑难数据库(出版商)”最低求助积分说明 487302