Semantics derived automatically from language corpora contain human-like biases

自然语言处理 人工智能 语义学(计算机科学) 自然语言
作者
Aylin Caliskan,Joanna J. Bryson,Arvind Narayanan
出处
期刊:arXiv: Artificial Intelligence 被引量:44
标识
DOI:10.1126/science.aal4230
摘要

Artificial intelligence and machine learning are in a period of astounding growth. However, there are concerns that these technologies may be used, either with or without intention, to perpetuate the prejudice and unfairness that unfortunately characterizes many human institutions. Here we show for the first time that human-like semantic biases result from the application of standard machine learning to ordinary language---the same sort of language humans are exposed to every day. We replicate a spectrum of standard human biases as exposed by the Implicit Association Test and other well-known psychological studies. We replicate these using a widely used, purely statistical machine-learning model---namely, the GloVe word embedding---trained on a corpus of text from the Web. Our results indicate that language itself contains recoverable and accurate imprints of our historic biases, whether these are morally neutral as towards insects or flowers, problematic as towards race or gender, or even simply veridical, reflecting the {\em status quo} for the distribution of gender with respect to careers or first names. These regularities are captured by machine learning along with the rest of semantics. In addition to our empirical findings concerning language, we also contribute new methods for evaluating bias in text, the Word Embedding Association Test (WEAT) and the Word Embedding Factual Association Test (WEFAT). Our results have implications not only for AI and machine learning, but also for the fields of psychology, sociology, and human ethics, since they raise the possibility that mere exposure to everyday language can account for the biases we replicate here.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
mingtian完成签到,获得积分10
刚刚
天才小能喵应助喵了个酥采纳,获得10
1秒前
online1881完成签到,获得积分10
2秒前
李凤凤完成签到 ,获得积分10
3秒前
丸子完成签到 ,获得积分10
4秒前
yammy完成签到 ,获得积分10
4秒前
虫虫冲呀冲完成签到,获得积分10
6秒前
开放访天完成签到 ,获得积分10
7秒前
哎呀妈呀完成签到 ,获得积分10
11秒前
来了来了完成签到 ,获得积分10
13秒前
大民王完成签到,获得积分10
16秒前
Tici完成签到,获得积分10
17秒前
怕孤单的朝雪完成签到,获得积分10
19秒前
23秒前
jing216完成签到 ,获得积分10
26秒前
27秒前
大魔王完成签到,获得积分10
27秒前
Kkk完成签到 ,获得积分10
30秒前
天天小女孩完成签到 ,获得积分10
31秒前
yml完成签到 ,获得积分10
33秒前
我不困完成签到,获得积分10
33秒前
有有完成签到 ,获得积分10
33秒前
缪清完成签到 ,获得积分10
34秒前
卜天亦完成签到,获得积分10
34秒前
Siehow完成签到 ,获得积分10
36秒前
情怀应助笑点低的思松采纳,获得10
37秒前
Chenqzl完成签到 ,获得积分10
39秒前
shuang0116完成签到 ,获得积分0
41秒前
哇次阿普曼完成签到 ,获得积分10
45秒前
wanci应助文天采纳,获得10
45秒前
舒心豪英完成签到 ,获得积分10
48秒前
风中的蜜蜂完成签到,获得积分10
50秒前
壳米应助十字入口采纳,获得100
51秒前
江三村完成签到 ,获得积分10
53秒前
DD立芬完成签到 ,获得积分10
54秒前
STZHEN完成签到,获得积分10
1分钟前
peter完成签到,获得积分10
1分钟前
勤奋的乐荷完成签到,获得积分10
1分钟前
黑粉头头完成签到,获得积分10
1分钟前
争做一名优秀的医学生ztt完成签到 ,获得积分10
1分钟前
高分求助中
Un calendrier babylonien des travaux, des signes et des mois: Séries iqqur îpuš 1036
IG Farbenindustrie AG and Imperial Chemical Industries Limited strategies for growth and survival 1925-1953 800
The Found Generation: Chinese Communists in Europe during the Twenties 700
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 600
Handbook of Language Analysis in Psychology 500
Prochinois Et Maoïsmes En France (et Dans Les Espaces Francophones) 500
重庆市新能源汽车产业大数据招商指南(两链两图两池两库两平台两清单两报告) 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2536738
求助须知:如何正确求助?哪些是违规求助? 2172104
关于积分的说明 5583304
捐赠科研通 1892419
什么是DOI,文献DOI怎么找? 943412
版权声明 565148
科研通“疑难数据库(出版商)”最低求助积分说明 502616