LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing

标杆管理 背景(考古学) 银弹 布线(电子设计自动化) 计算机科学 历史 业务 社会学 营销 计算机网络 考古 人类学
作者
Kuan Li,Liwen Zhang,Yong Jiang,Pengjun Xie,Fei Huang,Shuai Wang,M. Cheng
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2502.09977
摘要

Effectively incorporating external knowledge into Large Language Models (LLMs) is crucial for enhancing their capabilities and addressing real-world needs. Retrieval-Augmented Generation (RAG) offers an effective method for achieving this by retrieving the most relevant fragments into LLMs. However, the advancements in context window size for LLMs offer an alternative approach, raising the question of whether RAG remains necessary for effectively handling external knowledge. Several existing studies provide inconclusive comparisons between RAG and long-context (LC) LLMs, largely due to limitations in the benchmark designs. In this paper, we present LaRA, a novel benchmark specifically designed to rigorously compare RAG and LC LLMs. LaRA encompasses 2,326 test cases across four practical QA task categories and three types of naturally occurring long texts. Through systematic evaluation of seven open-source and four proprietary LLMs, we find that the optimal choice between RAG and LC depends on a complex interplay of factors, including the model's parameter size, long-text capabilities, context length, task type, and the characteristics of the retrieved chunks. Our findings provide actionable guidelines for practitioners to effectively leverage both RAG and LC approaches in developing and deploying LLM applications. Our code and dataset is provided at: \href{https://github.com/likuanppd/LaRA}{\textbf{https://github.com/likuanppd/LaRA}}.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
念姬完成签到 ,获得积分10
1秒前
RenatoCai完成签到 ,获得积分10
3秒前
呼呼哈哈完成签到,获得积分10
4秒前
5秒前
领悟完成签到,获得积分10
6秒前
JamesPei应助疯狂的水桃采纳,获得10
6秒前
tianxie完成签到,获得积分10
9秒前
南宫誉完成签到,获得积分10
10秒前
11秒前
Liangc333完成签到 ,获得积分10
11秒前
养猪的张三完成签到,获得积分10
14秒前
黑粉头头完成签到,获得积分10
17秒前
疯狂的水桃完成签到,获得积分20
19秒前
听风轻语完成签到 ,获得积分10
20秒前
wwww完成签到 ,获得积分10
30秒前
30秒前
希望天下0贩的0应助SWZ采纳,获得10
31秒前
小何完成签到 ,获得积分10
32秒前
自然水风完成签到 ,获得积分10
34秒前
茉莉雨完成签到 ,获得积分10
35秒前
沙克几十块完成签到,获得积分10
36秒前
开心的万天完成签到,获得积分10
37秒前
Dr.Joseph完成签到,获得积分10
41秒前
莴苣完成签到,获得积分10
41秒前
大仙发布了新的文献求助10
43秒前
嘟嘟完成签到 ,获得积分10
43秒前
石敢当完成签到,获得积分10
44秒前
yyd完成签到,获得积分10
51秒前
51秒前
大仙完成签到,获得积分10
52秒前
Shining_Wu完成签到,获得积分10
52秒前
老迟到的翠容完成签到,获得积分10
53秒前
执着夏岚发布了新的文献求助50
53秒前
Tohka完成签到 ,获得积分10
55秒前
zz完成签到,获得积分10
55秒前
烁夜acg发布了新的文献求助10
57秒前
SciGPT应助青山采纳,获得10
58秒前
哒哒哒完成签到,获得积分10
58秒前
tym完成签到 ,获得积分10
59秒前
cdercder应助科研通管家采纳,获得10
1分钟前
高分求助中
Mass producing individuality 600
Разработка метода ускоренного контроля качества электрохромных устройств 500
A Combined Chronic Toxicity and Carcinogenicity Study of ε-Polylysine in the Rat 400
Advances in Underwater Acoustics, Structural Acoustics, and Computational Methodologies 300
Effect of deresuscitation management vs. usual care on ventilator-free days in patients with abdominal septic shock 200
Erectile dysfunction From bench to bedside 200
Advanced Introduction to Behavioral Law and Economics 200
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3825090
求助须知:如何正确求助?哪些是违规求助? 3367381
关于积分的说明 10445474
捐赠科研通 3086761
什么是DOI,文献DOI怎么找? 1698286
邀请新用户注册赠送积分活动 816682
科研通“疑难数据库(出版商)”最低求助积分说明 769911