| 标题 |
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 相关领域
自动汇总
超参数
计算机科学
强化学习
人工智能
机器学习
偏爱
偏好学习
质量(理念)
时差学习
简单(哲学)
无监督学习
控制(管理)
数学
统计
认识论
哲学
|
| 网址 |
求助人暂未提供
|
| DOI |
暂未提供,该求助的时间将会延长,查看原因?
|
| 其它 | Advances in Neural Information Processing Systems 36 (NeurIPS 2023) |
| 求助人 | |
| 下载 | 该求助完结已超 24 小时,文件已从服务器自动删除,无法下载。 |
|
温馨提示:该文献已被科研通 学术中心 收录,前往查看
科研通『学术中心』是文献索引库,收集文献的基本信息(如标题、摘要、期刊、作者、被引量等),不提供下载功能。如需下载文献全文,请通过文献求助获取。
|