Projected state-action balancing weights for offline reinforcement learning

已完结

文献求助详情

标题	Projected state-action balancing weights for offline reinforcement learning 用于离线强化学习的预测状态——动作平衡权重相关领域数学估计员马尔可夫决策过程强化学习数学优化贝尔曼方程一致性（知识库）马尔可夫过程计算机科学统计人工智能几何学
网址	https://doi.org/10.1214/23-aos2302
DOI	10.1214/23-aos2302 doi
其它	期刊：Annals of statistics 作者：Jiayi Wang; Zhengling Qi; Raymond Chi-Wing Wong 出版日期：2023-08-01
求助人	阿大呆呆在 2024-05-21 23:35:44 发布自上海，悬赏 30 积分
下载	该求助完结已超 24 小时，文件已从服务器自动删除，无法下载。
	温馨提示：该文献已被科研通学术中心收录，前往查看科研通『学术中心』是文献索引库，收集文献的基本信息（如标题、摘要、期刊、作者、被引量等），不提供下载功能。如需下载文献全文，请通过文献求助获取。

上个求助

下个求助

该求助已完结，感谢关注

如需该文献，请重新发布求助，前往发布

科研通的所有服务均免费，并承诺对个人用户永久免费！

请遵守相关知识产权规定，勿将文件分享给他人，仅可用于个人研究学习

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 论文查重

更新

大幅提高文件上传限制，最高150M (2024-4-1)

更新

新增期刊收藏功能 (2024-03-23)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: CipherSage的应助被恩善采纳，获得10

1秒前; wanci的应助被lightman采纳，获得10

1秒前; 要文献啊完成签到，获得积分10

1秒前; 清脆的箴驳回了Akim的应助

4秒前; 黎明上传了应助文件

5秒前; 秋雪瑶上传了应助文件

5秒前; 李健上传了应助文件

5秒前; Paperduoduo发布了新的文献求助30

6秒前; YY88687321完成签到，获得积分10

6秒前; 七七完成签到，获得积分10

8秒前; 西红柿炒番茄上传了应助文件

9秒前; Maestro_S的应助被和十四条采纳，获得10

9秒前; yy发布了新的文献求助10

9秒前; 或习发布了新的文献求助10

9秒前; 科研通AI2S上传了应助文件

9秒前; laura完成签到，获得积分10

10秒前; physicalproblem的应助被神勇的秋灵采纳，获得20

11秒前; 科研通AI2S的应助被昏睡的南霜采纳，获得10

12秒前; 香蕉觅云的应助被zyz924采纳，获得10

12秒前; wanci上传了应助文件

13秒前; 住在魔仙堡的鱼发布了新的文献求助10

14秒前; 小孙失策了发布了新的文献求助10

14秒前; lightman发布了新的文献求助10

16秒前; geats完成签到，获得积分10

16秒前; 迷路的初柔发布了新的文献求助10

16秒前; 小马甲的应助被sirus采纳，获得10

17秒前; CipherSage上传了应助文件

18秒前; Hello的应助被或习采纳，获得10

18秒前; ding上传了应助文件

19秒前; Hao上传了应助文件

20秒前; 华仔的应助被滕侑林采纳，获得10

22秒前; 恩善发布了新的文献求助10

23秒前; Xu1woo发布了新的文献求助10

23秒前; 甜甜玫瑰上传了应助文件

24秒前; 烟花上传了应助文件

25秒前; ZZ完成签到，获得积分10

26秒前; cxy_2010完成签到，获得积分10

27秒前; Logicat完成签到，获得积分10

27秒前; 脑洞疼上传了应助文件

27秒前; 赘婿的应助被姜姜姜采纳，获得10

29秒前