A Survey on Data Selection for LLM Instruction Tuning

选择(遗传算法) 计算机科学 测量数据收集 数据科学 数学教育 情报检索 心理学 机器学习 统计 数学
作者
Jiahao Wang,Bolin Zhang,Qianlong Du,Jiajun Zhang,Dianhui Chu
出处
期刊:Cornell University - arXiv 被引量:2
标识
DOI:10.48550/arxiv.2402.05123
摘要

Instruction tuning is a vital step of training large language models (LLM), so how to enhance the effect of instruction tuning has received increased attention. Existing works indicate that the quality of the dataset is more crucial than the quantity during instruction tuning of LLM. Therefore, recently a lot of studies focus on exploring the methods of selecting high-quality subset from instruction datasets, aiming to reduce training costs and enhance the instruction-following capabilities of LLMs. This paper presents a comprehensive survey on data selection for LLM instruction tuning. Firstly, we introduce the wildly used instruction datasets. Then, we propose a new taxonomy of the data selection methods and provide a detailed introduction of recent advances,and the evaluation strategies and results of data selection methods are also elaborated in detail. Finally, we emphasize the open challenges and present new frontiers of this task.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
CFD应助薛定谔的猫采纳,获得10
刚刚
阿姨洗铁路完成签到 ,获得积分10
刚刚
羞涩的雨筠完成签到,获得积分10
1秒前
三点水关注了科研通微信公众号
4秒前
xiaoxingxing完成签到 ,获得积分10
5秒前
6秒前
NexusExplorer应助小熊采纳,获得10
8秒前
9秒前
CR完成签到,获得积分10
10秒前
脸脸啊完成签到,获得积分10
11秒前
pluto应助1503采纳,获得10
11秒前
胡力介发布了新的文献求助10
12秒前
13秒前
why完成签到,获得积分10
14秒前
GG发布了新的文献求助10
15秒前
iuhgnor发布了新的文献求助10
15秒前
东台携玉儿完成签到,获得积分10
18秒前
糖醋小萝卜完成签到,获得积分10
19秒前
挣钱养狗发布了新的文献求助20
19秒前
20秒前
21秒前
cdercder应助小西采纳,获得10
21秒前
守一完成签到 ,获得积分10
22秒前
研友_GZbV4Z完成签到,获得积分10
22秒前
ZY完成签到 ,获得积分10
25秒前
扁扁xx完成签到 ,获得积分10
25秒前
嘻嘻嘻完成签到,获得积分20
26秒前
Wenshu发布了新的文献求助10
27秒前
CFD应助11采纳,获得50
27秒前
28秒前
落后的滑板完成签到,获得积分10
29秒前
30秒前
qianchong发布了新的文献求助30
32秒前
宁宴完成签到 ,获得积分10
33秒前
34秒前
一条咸鱼完成签到 ,获得积分10
35秒前
35秒前
潘乃龙完成签到,获得积分10
36秒前
36秒前
完美的乐驹完成签到 ,获得积分10
36秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Cronologia da história de Macau 5000
Petrology and Plate Tectonics 800
Prompt Engineering for Clinicians: Harnessing AI in Everyday Medical Practice 600
Electrode Potentials 550
Butch/Femme: Inside Lesbian Gender 500
Handbook Of Synthetic Methodologies And Protocols Of Nanomaterials 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 内科学 物理 复合材料 催化作用 细胞生物学 光电子学 物理化学 电极 基因 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 6981165
求助须知:如何正确求助?哪些是违规求助? 8659979
关于积分的说明 18361678
捐赠科研通 6444915
什么是DOI,文献DOI怎么找? 3093334
关于科研通互助平台的介绍 2150412
邀请新用户注册赠送积分活动 2069706