Less Annotating, More Classifying: Addressing the Data Scarcity Issue of Supervised Machine Learning with Deep Transfer Learning and BERT-NLI

计算机科学 学习迁移 人工智能 任务(项目管理) 机器学习 推论 劣势 自然语言处理 知识转移 深度学习 稀缺 培训转移 知识管理 经济 微观经济学 管理
作者
Moritz Laurer,Wouter van Atteveldt,Andreu Casas,Kasper Welbers
出处
期刊:Political Analysis [Cambridge University Press]
卷期号:: 1-17 被引量:4
标识
DOI:10.1017/pan.2023.20
摘要

Abstract Supervised machine learning is an increasingly popular tool for analyzing large political text corpora. The main disadvantage of supervised machine learning is the need for thousands of manually annotated training data points. This issue is particularly important in the social sciences where most new research questions require new training data for a new task tailored to the specific research question. This paper analyses how deep transfer learning can help address this challenge by accumulating “prior knowledge” in language models. Models like BERT can learn statistical language patterns through pre-training (“language knowledge”), and reliance on task-specific data can be reduced by training on universal tasks like natural language inference (NLI; “task knowledge”). We demonstrate the benefits of transfer learning on a wide range of eight tasks. Across these eight tasks, our BERT-NLI model fine-tuned on 100 to 2,500 texts performs on average 10.7 to 18.3 percentage points better than classical models without transfer learning. Our study indicates that BERT-NLI fine-tuned on 500 texts achieves similar performance as classical models trained on around 5,000 texts. Moreover, we show that transfer learning works particularly well on imbalanced data. We conclude by discussing limitations of transfer learning and by outlining new opportunities for political science research.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
街道办事部完成签到,获得积分10
1秒前
斯文败类应助Yolen LI采纳,获得10
3秒前
大个应助sptyzl采纳,获得10
5秒前
情怀应助街道办事部采纳,获得20
7秒前
SciGPT应助天天扫大街采纳,获得10
7秒前
9秒前
9秒前
传奇3应助andrele采纳,获得30
9秒前
9秒前
11秒前
花椰菜完成签到,获得积分10
13秒前
Yolen LI发布了新的文献求助10
17秒前
共享精神应助科研通管家采纳,获得10
20秒前
脑洞疼应助科研通管家采纳,获得10
20秒前
赘婿应助科研通管家采纳,获得10
20秒前
Jasper应助科研通管家采纳,获得10
20秒前
小二郎应助科研通管家采纳,获得10
20秒前
NexusExplorer应助科研通管家采纳,获得10
20秒前
20秒前
25秒前
27秒前
ljhtxf发布了新的文献求助10
29秒前
英俊的铭应助冷傲世立采纳,获得10
30秒前
32秒前
33秒前
34秒前
红茸茸羊完成签到,获得积分10
34秒前
李爱国应助科研采纳,获得20
35秒前
36秒前
sptyzl发布了新的文献求助10
40秒前
wei发布了新的文献求助10
42秒前
43秒前
44秒前
45秒前
橙子发布了新的文献求助10
46秒前
starkisses完成签到,获得积分10
48秒前
兰西发布了新的文献求助10
49秒前
香蕉觅云应助于生有你采纳,获得10
49秒前
49秒前
所所应助请叫我过儿采纳,获得10
52秒前
高分求助中
请在求助之前详细阅读求助说明!!!! 20000
One Man Talking: Selected Essays of Shao Xunmei, 1929–1939 1000
Sphäroguß als Werkstoff für Behälter zur Beförderung, Zwischen- und Endlagerung radioaktiver Stoffe - Untersuchung zu alternativen Eignungsnachweisen: Zusammenfassender Abschlußbericht 1000
Yuwu Song, Biographical Dictionary of the People's Republic of China 700
[Lambert-Eaton syndrome without calcium channel autoantibodies] 520
The Three Stars Each: The Astrolabes and Related Texts 500
Additive Manufacturing Design and Applications 320
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2467480
求助须知:如何正确求助?哪些是违规求助? 2135587
关于积分的说明 5441548
捐赠科研通 1860428
什么是DOI,文献DOI怎么找? 925290
版权声明 562645
科研通“疑难数据库(出版商)”最低求助积分说明 495006