Embers of autoregression show how large language models are shaped by the problem they are trained to solve

任务(项目管理) 判决 计算机科学 认知心理学 心理学 人工智能 经济 管理
作者
R. Thomas McCoy,Shunyu Yao,Dan Friedman,Mathew D. Hardy,Thomas L. Griffiths
出处
期刊:Proceedings of the National Academy of Sciences of the United States of America [National Academy of Sciences]
卷期号:121 (41) 被引量:19
标识
DOI:10.1073/pnas.2322420121
摘要

The widespread adoption of large language models (LLMs) makes it important to recognize their strengths and limitations. We argue that to develop a holistic understanding of these systems, we must consider the problem that they were trained to solve: next-word prediction over Internet text. By recognizing the pressures that this task exerts, we can make predictions about the strategies that LLMs will adopt, allowing us to reason about when they will succeed or fail. Using this approach—which we call the teleological approach—we identify three factors that we hypothesize will influence LLM accuracy: the probability of the task to be performed, the probability of the target output, and the probability of the provided input. To test our predictions, we evaluate five LLMs (GPT-3.5, GPT-4, Claude 3, Llama 3, and Gemini 1.0) on 11 tasks, and we find robust evidence that LLMs are influenced by probability in the hypothesized ways. Many of the experiments reveal surprising failure modes. For instance, GPT-4’s accuracy at decoding a simple cipher is 51% when the output is a high-probability sentence but only 13% when it is low-probability, even though this task is a deterministic one for which probability should not matter. These results show that AI practitioners should be careful about using LLMs in low-probability situations. More broadly, we conclude that we should not evaluate LLMs as if they are humans but should instead treat them as a distinct type of system—one that has been shaped by its own particular set of pressures.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
鱿鱼发布了新的文献求助10
1秒前
顺心怜寒完成签到 ,获得积分10
4秒前
ZYN完成签到,获得积分10
4秒前
支雨泽完成签到,获得积分10
4秒前
斯文败类应助科研通管家采纳,获得10
4秒前
我是老大应助科研通管家采纳,获得10
5秒前
慕青应助科研通管家采纳,获得10
5秒前
酷波er应助科研通管家采纳,获得10
5秒前
CipherSage应助科研通管家采纳,获得10
5秒前
5秒前
5秒前
桥豆麻袋完成签到,获得积分10
7秒前
abtitw完成签到 ,获得积分10
8秒前
大方忆秋完成签到 ,获得积分10
8秒前
8秒前
心木完成签到 ,获得积分10
12秒前
21秒前
minrui发布了新的文献求助10
28秒前
zy0411完成签到,获得积分10
28秒前
蕉鲁诺蕉巴纳完成签到,获得积分0
30秒前
31秒前
tbdxby完成签到 ,获得积分10
34秒前
动听的秋白完成签到 ,获得积分10
34秒前
WD_COMMITS完成签到,获得积分20
35秒前
kuikui完成签到 ,获得积分10
35秒前
蛰伏的小宇宙完成签到,获得积分10
36秒前
尘风发布了新的文献求助10
37秒前
磊磊完成签到,获得积分10
38秒前
大山完成签到,获得积分10
43秒前
欢呼的飞荷完成签到 ,获得积分10
46秒前
nianshu完成签到 ,获得积分0
46秒前
zhangruiii完成签到 ,获得积分10
46秒前
木康薛完成签到,获得积分10
52秒前
Keyuuu30完成签到,获得积分0
54秒前
54秒前
Hao完成签到,获得积分10
59秒前
Ava应助完犊子采纳,获得10
1分钟前
1分钟前
ldy完成签到 ,获得积分10
1分钟前
TORCH完成签到 ,获得积分10
1分钟前
高分求助中
(禁止应助)【重要!!请各位详细阅读】【科研通的精品贴汇总】 10000
Semantics for Latin: An Introduction 1099
Robot-supported joining of reinforcement textiles with one-sided sewing heads 780
水稻光合CO2浓缩机制的创建及其作用研究 500
Logical form: From GB to Minimalism 500
2025-2030年中国消毒剂行业市场分析及发展前景预测报告 500
镇江南郊八公洞林区鸟类生态位研究 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4168345
求助须知:如何正确求助?哪些是违规求助? 3703811
关于积分的说明 11689404
捐赠科研通 3390959
什么是DOI,文献DOI怎么找? 1859739
邀请新用户注册赠送积分活动 919989
科研通“疑难数据库(出版商)”最低求助积分说明 832543