亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

LLM Coach: Reward Shaping for Reinforcement Learning-Based Navigation Agent

强化学习 计算机科学 钢筋 人工智能 人机交互 心理学 社会心理学
作者
Yifan Hu,HU Bin-bin,Bowen Yuan,Hai‐Tao Zhang
标识
DOI:10.1109/icaisisas64483.2025.11051677
摘要

Despite the widespread deployment of Large Language Models (LLMs) in embodied intelligent agents for their promising human-like reasoning capabilities, they remain hindered by local infeasibility and unpredictable cloud latency. To address this challenge, we propose LLM-Coach, a reinforcement learning framework that utilizes LLM-driven reward shaping for navigation on water surface during the training phase. Our approach enables models to integrate the common-sense knowledge embedded in LLMs while eliminating runtime dependency on these resource-intensive models. We implement the proposed framework in the European Ship Simulator environment, introducing two specialized LLM agents: an Observation Agent for real-time state extraction and an Evaluation Agent for policy assessment. Through synergistic collaboration, these agents facilitate the training of a deep neural network-based navigation model (ESSNet) that operates efficiently during execution. Finally, experimental results demonstrate that our approach outperforms traditional reinforcement learning methods while ensuring operational robustness.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
科研通AI6.2应助一一采纳,获得10
4秒前
qianru发布了新的文献求助30
4秒前
styxx发布了新的文献求助10
5秒前
archsaly完成签到,获得积分10
6秒前
6秒前
windkun发布了新的文献求助10
12秒前
13秒前
NexusExplorer应助科研通管家采纳,获得10
13秒前
无花果应助科研通管家采纳,获得10
13秒前
科研通AI2S应助科研通管家采纳,获得10
13秒前
Akim应助科研通管家采纳,获得10
13秒前
脑洞疼应助科研通管家采纳,获得10
13秒前
华仔应助雨雪多下采纳,获得10
18秒前
hhq完成签到 ,获得积分10
19秒前
珍妮完成签到 ,获得积分10
20秒前
英姑应助yuyu采纳,获得10
23秒前
qianru完成签到,获得积分10
24秒前
雨雪多下完成签到,获得积分10
26秒前
橙子完成签到,获得积分10
27秒前
29秒前
鸟窝完成签到 ,获得积分10
30秒前
雨雪多下发布了新的文献求助10
34秒前
35秒前
35秒前
顺利的羽完成签到,获得积分20
36秒前
火星上飞薇完成签到 ,获得积分10
39秒前
yuyu发布了新的文献求助10
41秒前
悦耳冰香完成签到,获得积分10
45秒前
鹤轸完成签到,获得积分10
47秒前
搁浅至云发布了新的文献求助10
53秒前
1分钟前
鸽子完成签到 ,获得积分10
1分钟前
PDE完成签到,获得积分10
1分钟前
冷艳的寻冬完成签到,获得积分10
1分钟前
一一发布了新的文献求助10
1分钟前
halo完成签到 ,获得积分10
1分钟前
1分钟前
1分钟前
1分钟前
无奈的迎丝完成签到 ,获得积分10
1分钟前
高分求助中
卤化钙钛矿人工突触的研究 2000
Malcolm Fraser : a biography 700
Signals, Systems, and Signal Processing 610
Software that combines deep learning,3D reconstruction and CFD to analyze the state of carotid arteries from ultrasound imaging 500
Bounds for Statistical Estimation in Semiparametric Models 500
Forced degradation and stability indicating LC method for Letrozole: A stress testing guide 500
Ideology and Meaning-Making under the Putin Regime 450
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6495449
求助须知:如何正确求助?哪些是违规求助? 8292220
关于积分的说明 17694670
捐赠科研通 5589197
什么是DOI,文献DOI怎么找? 2916513
邀请新用户注册赠送积分活动 1893383
关于科研通互助平台的介绍 1752685