清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Benchmarking Large Language Models in Retrieval-Augmented Generation

标杆管理 计算机科学 自然语言处理 情报检索 人工智能 业务 营销
作者
Jiawei Chen,Hongyu Lin,Xianpei Han,Le Sun
出处
期刊:Proceedings of the ... AAAI Conference on Artificial Intelligence [Association for the Advancement of Artificial Intelligence (AAAI)]
卷期号:38 (16): 17754-17762 被引量:77
标识
DOI:10.1609/aaai.v38i16.29728
摘要

Retrieval-Augmented Generation (RAG) is a promising approach for mitigating the hallucination of large language models (LLMs). However, existing research lacks rigorous evaluation of the impact of retrieval-augmented generation on different large language models, which make it challenging to identify the potential bottlenecks in the capabilities of RAG for different LLMs. In this paper, we systematically investigate the impact of Retrieval-Augmented Generation on large language models. We analyze the performance of different large language models in 4 fundamental abilities required for RAG, including noise robustness, negative rejection, information integration, and counterfactual robustness. To this end, we establish Retrieval-Augmented Generation Benchmark (RGB), a new corpus for RAG evaluation in both English and Chinese. RGB divides the instances within the benchmark into 4 separate testbeds based on the aforementioned fundamental abilities required to resolve the case. Then we evaluate 6 representative LLMs on RGB to diagnose the challenges of current LLMs when applying RAG. Evaluation reveals that while LLMs exhibit a certain degree of noise robustness, they still struggle significantly in terms of negative rejection, information integration, and dealing with false information. The aforementioned assessment outcomes indicate that there is still a considerable journey ahead to effectively apply RAG to LLMs.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Orange应助小路采纳,获得10
9秒前
55秒前
小路发布了新的文献求助10
1分钟前
Hello应助Stellarshi517采纳,获得10
1分钟前
小路完成签到,获得积分10
1分钟前
Shine完成签到 ,获得积分10
1分钟前
Eric800824完成签到 ,获得积分10
3分钟前
欢呼的茗茗完成签到 ,获得积分10
3分钟前
sysi完成签到 ,获得积分10
4分钟前
义气雁完成签到 ,获得积分10
4分钟前
4分钟前
Stellarshi517发布了新的文献求助10
4分钟前
baobeikk完成签到,获得积分10
4分钟前
ldjldj_2004完成签到 ,获得积分10
4分钟前
haprier完成签到 ,获得积分10
4分钟前
jun完成签到,获得积分10
5分钟前
快乐随心完成签到 ,获得积分10
5分钟前
杪夏二八完成签到 ,获得积分10
5分钟前
冷傲半邪完成签到,获得积分10
5分钟前
6分钟前
杨天天完成签到 ,获得积分10
6分钟前
矿泉水完成签到 ,获得积分10
7分钟前
iShine完成签到 ,获得积分10
7分钟前
深情安青应助科研通管家采纳,获得10
8分钟前
小马甲应助单纯的雅香采纳,获得80
8分钟前
满意的伊完成签到,获得积分10
8分钟前
8分钟前
8分钟前
8分钟前
充电宝应助科研小白采纳,获得10
8分钟前
majx发布了新的文献求助10
8分钟前
绿色心情完成签到 ,获得积分10
8分钟前
消烦员完成签到 ,获得积分10
8分钟前
8分钟前
8分钟前
9分钟前
erfan发布了新的文献求助10
9分钟前
不去明知山完成签到 ,获得积分10
9分钟前
土拨鼠完成签到 ,获得积分10
9分钟前
研友_8y2o0L完成签到,获得积分20
9分钟前
高分求助中
Mass producing individuality 600
Разработка метода ускоренного контроля качества электрохромных устройств 500
A Combined Chronic Toxicity and Carcinogenicity Study of ε-Polylysine in the Rat 400
Advances in Underwater Acoustics, Structural Acoustics, and Computational Methodologies 300
Effect of deresuscitation management vs. usual care on ventilator-free days in patients with abdominal septic shock 200
Erectile dysfunction From bench to bedside 200
Advanced Introduction to Behavioral Law and Economics 200
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3825008
求助须知:如何正确求助?哪些是违规求助? 3367346
关于积分的说明 10445264
捐赠科研通 3086687
什么是DOI,文献DOI怎么找? 1698201
邀请新用户注册赠送积分活动 816657
科研通“疑难数据库(出版商)”最低求助积分说明 769907