Direct Preference Optimization: Your Language Model is Secretly a Reward Model

已完结

文献求助详情

标题	Direct Preference Optimization: Your Language Model is Secretly a Reward Model 相关领域自动汇总超参数计算机科学强化学习人工智能机器学习偏爱偏好学习质量（理念）时差学习简单（哲学）无监督学习控制（管理）数学统计认识论哲学
网址	求助人暂未提供
DOI	暂未提供，该求助的时间将会延长，查看原因？ AI识别 10.48550/arxiv.2305.18290 doi
其它	Advances in Neural Information Processing Systems 36 (NeurIPS 2023)
求助人	syjssxwz 在 2025-10-31 17:14:18 发布自辽宁，悬赏 10 积分
下载	该求助完结已超 24 小时，文件已从服务器自动删除，无法下载。
	温馨提示：该文献已被科研通学术中心收录，前往查看科研通『学术中心』是文献索引库，收集文献的基本信息（如标题、摘要、期刊、作者、被引量等），不提供下载功能。如需下载文献全文，请通过文献求助获取。

上个求助

下个求助

提交工单

该求助已完结，感谢关注

如需该文献，请重新发布求助，前往发布

不忘初心，牢记使命，为科研工作者服务

请遵守相关知识产权规定，勿将文件分享给他人，仅可用于个人研究学习

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 历史今天

更新

2025年影响因子查询已上线 (2025-6-18)

更新

PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: 哇呀呀完成签到，获得积分0

2秒前; 等待的大炮发布了新的文献求助20

2秒前; 合适可乐发布了新的文献求助30

2秒前; gugugu完成签到，获得积分10

3秒前; 遇上就这样吧上传了应助文件

4秒前; 嘻嘻哈哈上传了应助文件

7秒前; 健忘四娘完成签到，获得积分10

7秒前; 优美若雁完成签到，获得积分10

9秒前; 领导范儿的应助被Lidocaine采纳，获得10

12秒前; FWCY发布了新的文献求助10

14秒前; 无花果上传了应助文件

16秒前; RR猫完成签到，获得积分10

17秒前; 霸天虎完成签到，获得积分10

19秒前; 科研通AI5上传了应助文件

19秒前; 张嘉雯完成签到，获得积分10

19秒前; 笑点低剑封发布了新的文献求助10

23秒前; 倾卿如玉完成签到，获得积分10

24秒前; roomvinli发布了新的文献求助10

25秒前; 小蘑菇的应助被科研通管家采纳，获得10

26秒前; JamesPei的应助被科研通管家采纳，获得10

26秒前; 华仔的应助被科研通管家采纳，获得10

26秒前; wanci的应助被科研通管家采纳，获得10

26秒前; 香蕉觅云的应助被科研通管家采纳，获得10

26秒前; 疯狂的寻琴完成签到，获得积分10

31秒前; 欣喜的人龙完成签到，获得积分10

31秒前; 万能图书馆的应助被小时了了采纳，获得10

32秒前; 共享精神的应助被肯瑞恩哭哭采纳，获得10

32秒前; roomvinli完成签到，获得积分10

38秒前; level完成签到，获得积分10

39秒前; 共享精神上传了应助文件

41秒前; 遇上就这样吧上传了应助文件

42秒前; 共享精神的应助被笑点低剑封采纳，获得10

45秒前; 深情安青上传了应助文件

46秒前; 肯瑞恩哭哭发布了新的文献求助10

46秒前; tjnksy完成签到，获得积分10

47秒前; 超级冰巧完成签到，获得积分20

48秒前; luster完成签到，获得积分10

49秒前; Seeyou233发布了新的文献求助50

52秒前; Yuang完成签到，获得积分10

52秒前; 诚心山芙发布了新的文献求助10

53秒前