Deception abilities emerged in large language models

欺骗 社会心理学 心理学 脆弱性(计算) 马基雅维利主义 计算机安全 计算机科学 人格 精神病
作者
Thilo Hagendorff
出处
期刊:Proceedings of the National Academy of Sciences of the United States of America [National Academy of Sciences]
卷期号:121 (24) 被引量:36
标识
DOI:10.1073/pnas.2317967121
摘要

Large language models (LLMs) are currently at the forefront of intertwining AI systems with human communication and everyday life. Thus, aligning them with human values is of great importance. However, given the steady increase in reasoning abilities, future LLMs are under suspicion of becoming able to deceive human operators and utilizing this ability to bypass monitoring efforts. As a prerequisite to this, LLMs need to possess a conceptual understanding of deception strategies. This study reveals that such strategies emerged in state-of-the-art LLMs, but were nonexistent in earlier LLMs. We conduct a series of experiments showing that state-of-the-art LLMs are able to understand and induce false beliefs in other agents, that their performance in complex deception scenarios can be amplified utilizing chain-of-thought reasoning, and that eliciting Machiavellianism in LLMs can trigger misaligned deceptive behavior. GPT-4, for instance, exhibits deceptive behavior in simple test scenarios 99.16% of the time ( P < 0.001). In complex second-order deception test scenarios where the aim is to mislead someone who expects to be deceived, GPT-4 resorts to deceptive behavior 71.46% of the time ( P < 0.001) when augmented with chain-of-thought reasoning. In sum, revealing hitherto unknown machine behavior in LLMs, our study contributes to the nascent field of machine psychology.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
lx关闭了lx文献求助
刚刚
科研通AI2S应助大苦瓜采纳,获得10
1秒前
隐形的语海完成签到,获得积分10
1秒前
飞龙在天完成签到,获得积分0
2秒前
3秒前
wuzhuang333完成签到 ,获得积分10
10秒前
凤栖木兮完成签到 ,获得积分10
11秒前
科研小趴菜完成签到 ,获得积分10
14秒前
梅夕阳完成签到,获得积分10
15秒前
任性吐司完成签到 ,获得积分10
15秒前
老实幻姬完成签到,获得积分10
16秒前
冷酷太清完成签到,获得积分10
16秒前
是风动完成签到,获得积分10
17秒前
领导范儿应助新人采纳,获得10
18秒前
Hmbb完成签到,获得积分10
18秒前
笑对人生完成签到 ,获得积分10
22秒前
哈哈完成签到,获得积分10
25秒前
小兔子乖乖完成签到 ,获得积分10
25秒前
谨慎纸飞机完成签到,获得积分10
25秒前
儒雅的蜜粉完成签到,获得积分10
26秒前
26秒前
molihuakai应助arniu2008采纳,获得10
27秒前
111完成签到 ,获得积分10
29秒前
领导范儿应助ZDTT采纳,获得10
30秒前
Silole完成签到,获得积分10
30秒前
123554发布了新的文献求助10
32秒前
健壮的思枫完成签到,获得积分10
33秒前
lz完成签到,获得积分10
36秒前
开开开完成签到,获得积分10
36秒前
明天完成签到,获得积分10
38秒前
canghong完成签到,获得积分10
39秒前
甜甜醉波完成签到,获得积分10
40秒前
清清完成签到 ,获得积分10
43秒前
asdfghjkl完成签到,获得积分10
43秒前
43秒前
玖月完成签到 ,获得积分0
44秒前
arniu2008发布了新的文献求助10
44秒前
Peeta应助123554采纳,获得10
45秒前
杨蒙博发布了新的文献求助10
45秒前
Yue完成签到 ,获得积分10
45秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Organometallic Chemistry of the Transition Metals 800
Chemistry and Physics of Carbon Volume 18 800
The Organometallic Chemistry of the Transition Metals 800
The formation of Australian attitudes towards China, 1918-1941 640
Signals, Systems, and Signal Processing 610
全相对论原子结构与含时波包动力学的理论研究--清华大学 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6440926
求助须知:如何正确求助?哪些是违规求助? 8254788
关于积分的说明 17572450
捐赠科研通 5499208
什么是DOI,文献DOI怎么找? 2900113
邀请新用户注册赠送积分活动 1876760
关于科研通互助平台的介绍 1716941