Sample mean based index policies by O(log n) regret for the multi-armed bandit problem

后悔 数学 上下界 常量(计算机编程) 指数函数 多武装匪徒 Kullback-Leibler散度 索引(排版) 贝叶斯概率 数学优化 时间范围 应用数学 组合数学 统计 数学分析 计算机科学 万维网 程序设计语言
作者
Rajeev Agrawal
出处
期刊:Advances in Applied Probability [Cambridge University Press]
卷期号:27 (04): 1054-1078 被引量:60
标识
DOI:10.1017/s0001867800047790
摘要

We consider a non-Bayesian infinite horizon version of the multi-armed bandit problem with the objective of designing simple policies whose regret increases slowly with time. In their seminal work on this problem, Lai and Robbins had obtained a O (log n ) lower bound on the regret with a constant that depends on the Kullback–Leibler number. They also constructed policies for some specific families of probability distributions (including exponential families) that achieved the lower bound. In this paper we construct index policies that depend on the rewards from each arm only through their sample mean. These policies are computationally much simpler and are also applicable much more generally. They achieve a O (log n ) regret with a constant that is also based on the Kullback–Leibler number. This constant turns out to be optimal for one-parameter exponential families; however, in general it is derived from the optimal one via a ‘contraction' principle. Our results rely entirely on a few key lemmas from the theory of large deviations.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
yu发布了新的文献求助10
1秒前
所所应助称心马里奥采纳,获得10
2秒前
闪闪落雁完成签到,获得积分10
2秒前
淡水痕完成签到,获得积分10
3秒前
领导范儿应助沙拉酱采纳,获得10
3秒前
完美世界应助Grinder采纳,获得10
3秒前
4秒前
5秒前
安详靖柏完成签到,获得积分10
6秒前
充电宝应助王瑛采纳,获得10
6秒前
甜美三娘完成签到,获得积分10
6秒前
雾野与晚风完成签到,获得积分10
7秒前
英姑应助za==采纳,获得10
7秒前
SciGPT应助Paula_xr采纳,获得10
7秒前
高兴纸鹤完成签到,获得积分10
7秒前
所所应助纯真忆秋采纳,获得10
7秒前
Lucas应助淡定汉堡采纳,获得10
7秒前
牛不可完成签到,获得积分10
7秒前
豆包发布了新的文献求助10
8秒前
l玖应助Hardes采纳,获得10
9秒前
plutoszq完成签到,获得积分10
9秒前
司徒文青发布了新的文献求助10
9秒前
liu95完成签到 ,获得积分10
9秒前
MX应助文艺的烧鹅采纳,获得20
10秒前
wyc完成签到 ,获得积分10
10秒前
zhangluhang完成签到,获得积分10
11秒前
Owen应助豆包采纳,获得10
12秒前
科目三应助chens627采纳,获得10
12秒前
13秒前
知行合一完成签到 ,获得积分10
13秒前
星月相遂完成签到,获得积分10
13秒前
MRM完成签到 ,获得积分10
13秒前
爆米花应助失眠的海云采纳,获得10
14秒前
14秒前
ZoraZeng完成签到,获得积分10
15秒前
紧张的铅笔关注了科研通微信公众号
15秒前
小颖子完成签到,获得积分20
15秒前
小粽子完成签到,获得积分10
16秒前
你好呀完成签到,获得积分20
16秒前
17秒前
高分求助中
Applied Survey Data Analysis (第三版, 2025) 800
Assessing and Diagnosing Young Children with Neurodevelopmental Disorders (2nd Edition) 700
Images that translate 500
引进保护装置的分析评价八七年国外进口线路等保护运行情况介绍 500
Algorithmic Mathematics in Machine Learning 500
Handbook of Innovations in Political Psychology 400
Mapping the Stars: Celebrity, Metonymy, and the Networked Politics of Identity 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3841240
求助须知:如何正确求助?哪些是违规求助? 3383270
关于积分的说明 10528888
捐赠科研通 3103224
什么是DOI,文献DOI怎么找? 1709200
邀请新用户注册赠送积分活动 822985
科研通“疑难数据库(出版商)”最低求助积分说明 773764