RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge

反事实思维 互联网 计算机科学 知识管理 心理学 社会心理学 万维网
作者
Yi Liu,Lianzhe Huang,Shicheng Li,Sishuo Chen,Hao Zhou,Fandong Meng,Jie Zhou,Xu Hua Sun
出处
期刊:Cornell University - arXiv 被引量:3
标识
DOI:10.48550/arxiv.2311.08147
摘要

LLMs and AI chatbots have improved people's efficiency in various fields. However, the necessary knowledge for answering the question may be beyond the models' knowledge boundaries. To mitigate this issue, many researchers try to introduce external knowledge, such as knowledge graphs and Internet contents, into LLMs for up-to-date information. However, the external information from the Internet may include counterfactual information that will confuse the model and lead to an incorrect response. Thus there is a pressing need for LLMs to possess the ability to distinguish reliable information from external knowledge. Therefore, to evaluate the ability of LLMs to discern the reliability of external knowledge, we create a benchmark from existing knowledge bases. Our benchmark consists of two tasks, Question Answering and Text Generation, and for each task, we provide models with a context containing counterfactual information. Evaluation results show that existing LLMs are susceptible to interference from unreliable external knowledge with counterfactual information, and simple intervention methods make limited contributions to the alleviation of this issue.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
CodeCraft应助雨琴采纳,获得10
刚刚
末世发布了新的文献求助10
刚刚
orixero应助雨琴采纳,获得10
刚刚
1秒前
平常雨泽发布了新的文献求助10
1秒前
雪山飞虹发布了新的文献求助10
3秒前
杨新苗完成签到,获得积分10
3秒前
花生米35发布了新的文献求助10
4秒前
琳chen发布了新的文献求助10
4秒前
4秒前
5秒前
Ball发布了新的文献求助10
5秒前
小甑发布了新的文献求助10
5秒前
章鱼哥想毕业完成签到 ,获得积分10
5秒前
5秒前
7秒前
8秒前
mymEN完成签到 ,获得积分10
9秒前
城瑶发布了新的文献求助10
9秒前
zy发布了新的文献求助10
9秒前
Pan完成签到,获得积分10
10秒前
紫菜完成签到,获得积分10
12秒前
黄大仙完成签到,获得积分10
13秒前
Pan发布了新的文献求助10
13秒前
MWSURE完成签到,获得积分10
15秒前
8R60d8应助末世采纳,获得10
15秒前
斯文败类应助雪山飞虹采纳,获得10
16秒前
17秒前
18秒前
Ball完成签到,获得积分20
19秒前
木瓜完成签到,获得积分10
20秒前
21秒前
末世完成签到,获得积分10
21秒前
kxyraw发布了新的文献求助10
23秒前
马丁陌陌007完成签到 ,获得积分10
23秒前
23秒前
SYLH应助糯米糍采纳,获得10
24秒前
summer-ray发布了新的文献求助10
25秒前
送你花花完成签到,获得积分10
26秒前
高分求助中
Technologies supporting mass customization of apparel: A pilot project 600
Izeltabart tapatansine - AdisInsight 500
Chinesen in Europa – Europäer in China: Journalisten, Spione, Studenten 500
Arthur Ewert: A Life for the Comintern 500
China's Relations With Japan 1945-83: The Role of Liao Chengzhi // Kurt Werner Radtke 500
Two Years in Peking 1965-1966: Book 1: Living and Teaching in Mao's China // Reginald Hunt 500
Epigenetic Drug Discovery 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3814939
求助须知:如何正确求助?哪些是违规求助? 3358987
关于积分的说明 10399369
捐赠科研通 3076561
什么是DOI,文献DOI怎么找? 1689868
邀请新用户注册赠送积分活动 813339
科研通“疑难数据库(出版商)”最低求助积分说明 767608