已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Orientation-Preserving Rewards’ Balancing in Reinforcement Learning

强化学习 计算机科学 趋同(经济学) 帕累托最优 帕累托原理 平衡(能力) 数学优化 网格 方向(向量空间) 人工智能 多目标优化 机器学习 数学 经济 物理医学与康复 医学 经济增长 几何学
作者
Jinsheng Ren,Shangqi Guo,Feng Chen
出处
期刊:IEEE transactions on neural networks and learning systems [Institute of Electrical and Electronics Engineers]
卷期号:33 (11): 6458-6472 被引量:2
标识
DOI:10.1109/tnnls.2021.3080521
摘要

Auxiliary rewards are widely used in complex reinforcement learning tasks. However, previous work can hardly avoid the interference of auxiliary rewards on pursuing the main rewards, which leads to the destruction of the optimal policy. Thus, it is challenging but essential to balance the main and auxiliary rewards. In this article, we explicitly formulate the problem of rewards’ balancing as searching for a Pareto optimal solution, with the overall objective of preserving the policy’s optimization orientation for the main rewards (i.e., the policy driven by the balanced rewards is consistent with the policy driven by the main rewards). To this end, we propose a variant Pareto and show that it can effectively guide the policy search toward more main rewards. Furthermore, we establish an iterative learning framework for rewards’ balancing and theoretically analyze its convergence and time complexity. Experiments in both discrete (grid word) and continuous (Doom) environments demonstrated that our algorithm can effectively balance rewards, and achieve remarkable performance compared with those RLs with heuristically designed rewards. In the ViZDoom platform, our algorithm can learn expert-level policies.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
凡空发布了新的文献求助20
刚刚
南瓜完成签到,获得积分10
2秒前
4秒前
烂漫刺猬完成签到 ,获得积分10
4秒前
希希完成签到 ,获得积分10
8秒前
CipherSage应助橙橙采纳,获得10
10秒前
Oracle应助klicking采纳,获得60
10秒前
10秒前
Kenny完成签到,获得积分10
12秒前
12秒前
高子滢完成签到,获得积分10
13秒前
13秒前
文静的海完成签到,获得积分10
14秒前
14秒前
14秒前
15秒前
wangxiaobin完成签到 ,获得积分0
15秒前
15秒前
16秒前
77发布了新的文献求助10
19秒前
big_fi发布了新的文献求助10
19秒前
高子滢发布了新的文献求助10
20秒前
thebolter完成签到 ,获得积分10
25秒前
25秒前
26秒前
NexusExplorer应助鱼肠采纳,获得10
27秒前
yangyihuan完成签到 ,获得积分10
29秒前
30秒前
路路123L发布了新的文献求助10
30秒前
kkkk应助与月同行采纳,获得10
31秒前
cumtlhy88完成签到 ,获得积分10
33秒前
科研通AI6.4应助big_fi采纳,获得10
34秒前
吖咪h完成签到 ,获得积分10
35秒前
去码头整点薯条完成签到,获得积分10
38秒前
40秒前
45秒前
48秒前
49秒前
风芄慕完成签到,获得积分10
49秒前
小王同学完成签到,获得积分10
51秒前
高分求助中
Prescott's Microbiology: 2026 Release ISE 10000
University Physics with Modern Physics, 16th edition 10000
Cronologia da história de Macau 5000
Merrill's Atlas of Radiographic Positioning and Procedures - 3-Volume Set, 16th Edition 2000
Organic Reactions, Volume 118 1000
Interactions of Vowel Quality and Prosody in East Slavic 1000
Erwählung und Berufung bei Paulus: Bedeutung, Entwicklung und Funktion einer Vorstellung in ihrem frühjüdischen und griechisch-römischen Kontext 850
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 内科学 物理 复合材料 催化作用 细胞生物学 无机化学 光电子学 物理化学 电极 基因
热门帖子
关注 科研通微信公众号,转发送积分 7140414
求助须知:如何正确求助?哪些是违规求助? 8788535
关于积分的说明 18577947
捐赠科研通 6729617
什么是DOI,文献DOI怎么找? 3155627
关于科研通互助平台的介绍 2283184
邀请新用户注册赠送积分活动 2129997