Teaching Large Language Models to Reason with Reinforcement Learning

已完结

文献求助详情

标题	Teaching Large Language Models to Reason with Reinforcement Learning 用强化学习教授大型语言模型推理相关领域强化学习钢筋计算机科学数学教育语言学心理学人工智能社会心理学哲学
网址	https://arxiv.org/abs/2403.04642
DOI	10.48550/arxiv.2403.04642 doi
其它	期刊：arXiv (Cornell University) 作者：Alex Havrilla; Youwei Du; Sharath Chandra Raparthy; Christoforos Nalmpantis; Jane Dwivedi-Yu; et al 出版日期：2024-03-07
求助人	ckk 在 2024-04-07 19:02:34 发布自重庆，悬赏 10 积分
下载	该求助完结已超 24 小时，文件已从服务器自动删除，无法下载。
	温馨提示：该文献已被科研通学术中心收录，前往查看科研通『学术中心』是文献索引库，收集文献的基本信息（如标题、摘要、期刊、作者、被引量等），不提供下载功能。如需下载文献全文，请通过文献求助获取。

上个求助

下个求助

Society for Industrial and Applied Mathematics (SIAM)

该求助已完结，感谢关注

如需该文献，请重新发布求助，前往发布

科研通，让源源不断科研创作灵感的涌现之地

请遵守相关知识产权规定，勿将文件分享给他人，仅可用于个人研究学习

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 论文查重

更新

大幅提高文件上传限制，最高150M (2024-4-1)

更新

新增期刊收藏功能 (2024-03-23)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: 共享精神上传了应助文件

1秒前; 科研通AI2.0上传了应助文件

2秒前; Hannahhh完成签到，获得积分10

2秒前; 英俊的铭上传了应助文件

3秒前; 传奇3上传了应助文件

3秒前; pluto上传了应助文件

5秒前; CodeCraft的应助被柯柯采纳，获得30

5秒前; lilili发布了新的文献求助10

6秒前; 华仔的应助被MaxWong采纳，获得10

6秒前; Vincy发布了新的文献求助10

7秒前; tttt完成签到，获得积分10

9秒前; 快乐的西装发布了新的文献求助10

9秒前; Akim的应助被迅速日记本采纳，获得10

9秒前; CodeCraft上传了应助文件

12秒前; 友好的稀完成签到，获得积分10

14秒前; 冰冰爱干饭发布了新的文献求助10

15秒前; 所所的应助被955采纳，获得30

15秒前; 852的应助被眼睛大的甜瓜采纳，获得10

16秒前; 性静H情逸完成签到，获得积分20

17秒前; 柯柯发布了新的文献求助30

18秒前; zyb完成签到，获得积分10

18秒前; 斯文败类的应助被努力向流域靠近采纳，获得10

18秒前; 丁小只完成签到，获得积分10

20秒前; 领导范儿上传了应助文件

29秒前; pluto上传了应助文件

32秒前; yyj发布了新的文献求助10

35秒前; amateur上传了应助文件

36秒前; 情怀的应助被xms采纳，获得10

36秒前; FashionBoy的应助被自觉半凡采纳，获得10

37秒前; 斯文败类上传了应助文件

37秒前; 云朵发布了新的文献求助30

42秒前; lilili完成签到，获得积分10

42秒前; 努力向流域靠近发布了新的文献求助10

44秒前; 自信的冬日发布了新的文献求助10

44秒前; 及尔完成签到，获得积分10

46秒前; 隐形曼青的应助被科研通管家采纳，获得10

46秒前; 所所的应助被科研通管家采纳，获得10

46秒前; seraphimdk的应助被科研通管家采纳，获得10

46秒前; 传奇3的应助被科研通管家采纳，获得10

46秒前; yhchow0204的应助被科研通管家采纳，获得10

46秒前