亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Personalized robotic control via constrained multi-objective reinforcement learning

强化学习 计算机科学 马尔可夫决策过程 数学优化 状态空间 人工智能 最优控制 机器学习 趋同(经济学) 马尔可夫过程 数学 统计 经济 经济增长
作者
Xiangkun He,Zhongxu Hu,Haohan Yang,Chen Lv
出处
期刊:Neurocomputing [Elsevier BV]
卷期号:565: 126986-126986 被引量:3
标识
DOI:10.1016/j.neucom.2023.126986
摘要

Reinforcement learning is capable of providing state-of-art performance in end-to-end robotic control tasks. Nevertheless, many real-world control tasks necessitate the balancing of multiple conflicting objectives while simultaneously ensuring that the learned policies adhere to constraints. Additionally, individual users may typically prefer to explore the personalized and diversified robotic control modes via specific preferences. Therefore, this paper presents a novel constrained multi-objective reinforcement learning algorithm for personalized end-to-end robotic control with continuous actions, allowing a trained single model to approximate the Pareto optimal policies for any user-specified preferences. The proposed approach is formulated as a constrained multi-objective Markov decision process, incorporating a nonlinear constraint design to facilitate the agent in learning optimal policies that align with specified user preferences across the entire preference space. Meanwhile, a comprehensive index based on hypervolume and entropy is presented to measure the convergence, diversity and evenness of the learned control policies. The proposed scheme is evaluated on nine multi-objective end-to-end robotic control tasks with continuous action space, and its effectiveness is demonstrated in comparison with the competitive baselines, including classical and state-of-the-art algorithms.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
田様应助脉动采纳,获得10
1秒前
无花果应助含蓄的荔枝采纳,获得10
14秒前
29秒前
34秒前
斯文败类应助Silence采纳,获得10
43秒前
Jasper应助Tiger-Cheng采纳,获得10
46秒前
顾矜应助含蓄的荔枝采纳,获得10
59秒前
Tiger-Cheng完成签到,获得积分10
1分钟前
Perry完成签到,获得积分10
1分钟前
1分钟前
司空天德发布了新的文献求助10
1分钟前
Micheal完成签到,获得积分10
1分钟前
1分钟前
1分钟前
Silence发布了新的文献求助10
1分钟前
科研通AI2S应助科研通管家采纳,获得10
1分钟前
1分钟前
kid1412完成签到 ,获得积分10
1分钟前
领导范儿应助含蓄的荔枝采纳,获得10
1分钟前
1分钟前
Imin完成签到,获得积分10
1分钟前
Sun发布了新的文献求助10
1分钟前
1分钟前
含糊的茹妖完成签到 ,获得积分0
1分钟前
1分钟前
1分钟前
坚强书琴发布了新的文献求助10
2分钟前
乐乐应助Sun采纳,获得10
2分钟前
zqq完成签到,获得积分0
2分钟前
消逝完成签到 ,获得积分10
2分钟前
英姑应助asdf采纳,获得10
2分钟前
科研通AI5应助含蓄的荔枝采纳,获得10
2分钟前
2分钟前
2分钟前
2分钟前
asdf发布了新的文献求助10
2分钟前
SYLH应助复杂凝海采纳,获得10
2分钟前
健明完成签到,获得积分10
2分钟前
andrele发布了新的文献求助10
2分钟前
3分钟前
高分求助中
Technologies supporting mass customization of apparel: A pilot project 600
Izeltabart tapatansine - AdisInsight 500
Chinesen in Europa – Europäer in China: Journalisten, Spione, Studenten 500
Arthur Ewert: A Life for the Comintern 500
China's Relations With Japan 1945-83: The Role of Liao Chengzhi // Kurt Werner Radtke 500
Two Years in Peking 1965-1966: Book 1: Living and Teaching in Mao's China // Reginald Hunt 500
Epigenetic Drug Discovery 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3815770
求助须知:如何正确求助?哪些是违规求助? 3359317
关于积分的说明 10402144
捐赠科研通 3077173
什么是DOI,文献DOI怎么找? 1690198
邀请新用户注册赠送积分活动 813659
科研通“疑难数据库(出版商)”最低求助积分说明 767713