Bigger is not always better: The importance of human-scale language modeling for psycholinguistics

心理语言学 比例(比率) 语言学 计算机科学 认知科学 自然语言处理 心理学 哲学 地理 认知 神经科学 地图学
作者
Ethan Wilcox,Michael Y. Hu,Aaron Mueller,Tal Linzen,Alex Warstadt,Leshem Choshen,Chengxu Zhuang,Ryan Cotterell,Adina Williams
标识
DOI:10.31234/osf.io/rfwgd_v2
摘要

Neural network language models can learn a surprising amount about language by predicting upcoming words in a corpus. Recent language technologies work has demonstrated that large performance improvements can arise from simply increasing ("scaling") the size of the data sets they are trained on (and, correspondingly, the number of parameters in those models); accordingly, many contemporary systems are trained on trillions of words. While largely beneficial to performance on language applications, scaling has several downsides for both computational psycholinguistics and natural language processing research. We discuss the scientific challenges presented by scaling, as well as the benefits that would result from human-scale language modeling research. In the second half of this paper, we report on takeaways from two efforts to bring about human-scale language model pretraining. First, we report on the first iteration of the BabyLM Challenge, a shared task organized by the authors that asked participants to train a language model on 100 million words or less. Second, we present experiments to answer open questions from the findings of the BabyLM Challenge: namely, are a significant amount of computational resources required to achieve high performance, even at such small scales? We find that high performance can be achieved at small data scales and with typical academic-scale computational resources.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
guoxihan完成签到,获得积分10
1秒前
萝卜丁完成签到 ,获得积分0
5秒前
林狗完成签到 ,获得积分10
13秒前
SZ应助zxhhm采纳,获得10
15秒前
顺心醉蝶完成签到 ,获得积分10
15秒前
ZZZ完成签到,获得积分10
17秒前
常常完成签到,获得积分10
19秒前
汉堡包应助舒适映寒采纳,获得10
23秒前
32秒前
35秒前
舒适映寒发布了新的文献求助10
37秒前
儒雅的蜜粉完成签到,获得积分10
37秒前
kaier完成签到 ,获得积分0
37秒前
郭京京完成签到 ,获得积分10
38秒前
舒适映寒完成签到,获得积分10
41秒前
秋秋完成签到 ,获得积分10
42秒前
游艺完成签到 ,获得积分10
43秒前
复杂冬菱完成签到 ,获得积分10
44秒前
赤心完成签到,获得积分10
46秒前
49秒前
画龙点睛完成签到 ,获得积分10
49秒前
赤心发布了新的文献求助10
53秒前
mojito完成签到 ,获得积分10
56秒前
陶醉的代玉完成签到 ,获得积分10
57秒前
啊熙完成签到 ,获得积分10
57秒前
luffy完成签到 ,获得积分10
58秒前
唐新惠完成签到 ,获得积分10
59秒前
8D完成签到,获得积分10
1分钟前
yao完成签到 ,获得积分10
1分钟前
YOLO完成签到,获得积分10
1分钟前
领导范儿应助大铁牛采纳,获得30
1分钟前
友好的小萱完成签到 ,获得积分10
1分钟前
高高的巨人完成签到 ,获得积分0
1分钟前
超越俗尘完成签到,获得积分10
1分钟前
1分钟前
孙紫阳完成签到 ,获得积分10
1分钟前
充电宝应助科研通管家采纳,获得10
1分钟前
丘比特应助天真的灵薇采纳,获得10
1分钟前
大铁牛发布了新的文献求助30
1分钟前
末末完成签到 ,获得积分10
1分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Encyclopedia of Solid-Liquid Interfaces 600
A study of torsion fracture tests 510
Narrative Method and Narrative form in Masaccio's Tribute Money 500
Aircraft Engine Design, Third Edition 500
Neonatal and Pediatric ECMO Simulation Scenarios 500
苏州地下水中新污染物及其转化产物的非靶向筛查 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 4754415
求助须知:如何正确求助?哪些是违规求助? 4098252
关于积分的说明 12679126
捐赠科研通 3811963
什么是DOI,文献DOI怎么找? 2104413
邀请新用户注册赠送积分活动 1129607
关于科研通互助平台的介绍 1007264