LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing

标杆管理 背景(考古学) 银弹 布线(电子设计自动化) 计算机科学 历史 业务 社会学 营销 计算机网络 考古 人类学
作者
Kuan Li,Liwen Zhang,Yong Jiang,Pengjun Xie,Fei Huang,Shuai Wang,M. Cheng
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2502.09977
摘要

Effectively incorporating external knowledge into Large Language Models (LLMs) is crucial for enhancing their capabilities and addressing real-world needs. Retrieval-Augmented Generation (RAG) offers an effective method for achieving this by retrieving the most relevant fragments into LLMs. However, the advancements in context window size for LLMs offer an alternative approach, raising the question of whether RAG remains necessary for effectively handling external knowledge. Several existing studies provide inconclusive comparisons between RAG and long-context (LC) LLMs, largely due to limitations in the benchmark designs. In this paper, we present LaRA, a novel benchmark specifically designed to rigorously compare RAG and LC LLMs. LaRA encompasses 2,326 test cases across four practical QA task categories and three types of naturally occurring long texts. Through systematic evaluation of seven open-source and four proprietary LLMs, we find that the optimal choice between RAG and LC depends on a complex interplay of factors, including the model's parameter size, long-text capabilities, context length, task type, and the characteristics of the retrieved chunks. Our findings provide actionable guidelines for practitioners to effectively leverage both RAG and LC approaches in developing and deploying LLM applications. Our code and dataset is provided at: \href{https://github.com/likuanppd/LaRA}{\textbf{https://github.com/likuanppd/LaRA}}.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
molihuakai应助杨佳采纳,获得10
1秒前
传奇3应助lruri张采纳,获得10
2秒前
认真的一刀完成签到,获得积分0
2秒前
羊村你喜哥完成签到 ,获得积分10
6秒前
眼睫毛发布了新的文献求助10
8秒前
8秒前
无一完成签到,获得积分10
9秒前
汉堡包应助ahuyv采纳,获得10
9秒前
Akim应助lizi采纳,获得10
10秒前
jenningseastera应助起司团子采纳,获得10
10秒前
pipi完成签到,获得积分10
11秒前
落寞的冷荷完成签到,获得积分10
12秒前
lruri张发布了新的文献求助10
13秒前
狂奔的酸笋完成签到,获得积分10
14秒前
Sam完成签到,获得积分10
18秒前
vv发布了新的文献求助10
19秒前
19秒前
21秒前
宁燕完成签到,获得积分10
21秒前
luoyan发布了新的文献求助30
22秒前
jhb发布了新的文献求助10
27秒前
28秒前
小郭呀发布了新的文献求助10
28秒前
12345678应助石油大亨采纳,获得10
28秒前
29秒前
jie_e完成签到,获得积分10
31秒前
Yvemiy9完成签到,获得积分10
31秒前
光头强完成签到,获得积分10
31秒前
33秒前
夏至完成签到 ,获得积分10
34秒前
星星亮完成签到 ,获得积分10
34秒前
35秒前
小绵羊完成签到,获得积分20
37秒前
执意完成签到 ,获得积分10
38秒前
研友_VZG7GZ应助陌延采纳,获得10
39秒前
完美世界应助66采纳,获得10
39秒前
40秒前
40秒前
陶醉的念之完成签到,获得积分10
40秒前
Jbiolover应助小绵羊采纳,获得10
40秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Graphene Handbook (2019 Edition) 800
Signals, Systems, and Signal Processing 610
IEST-RP-CC018: Cleanroom Cleaning and Sanitization: Operating and Monitoring Procedures 600
Fundamentals of Pharmaceutical and Biologics Regulations: A Global Perspective, Second Edition 600
Rehabilitation of Long-Standing Groin Pain in Athletes: A Scoping Review of Exercise Content and Reporting 500
The Immune System (Fifth Edition) 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6579929
求助须知:如何正确求助?哪些是违规求助? 8355399
关于积分的说明 17894448
捐赠科研通 5717442
什么是DOI,文献DOI怎么找? 2947740
邀请新用户注册赠送积分活动 1923455
关于科研通互助平台的介绍 1806657