Combining Insights From Multiple Large Language Models Improves Diagnostic Accuracy

计算机科学 自然语言处理 人工智能
作者
Gioele Barabucci,Victor Shia,Eugene Chu,Benjamin Harack,Nathan Fu
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2402.08806
摘要

Background: Large language models (LLMs) such as OpenAI's GPT-4 or Google's PaLM 2 are proposed as viable diagnostic support tools or even spoken of as replacements for "curbside consults". However, even LLMs specifically trained on medical topics may lack sufficient diagnostic accuracy for real-life applications. Methods: Using collective intelligence methods and a dataset of 200 clinical vignettes of real-life cases, we assessed and compared the accuracy of differential diagnoses obtained by asking individual commercial LLMs (OpenAI GPT-4, Google PaLM 2, Cohere Command, Meta Llama 2) against the accuracy of differential diagnoses synthesized by aggregating responses from combinations of the same LLMs. Results: We find that aggregating responses from multiple, various LLMs leads to more accurate differential diagnoses (average accuracy for 3 LLMs: $75.3\%\pm 1.6pp$) compared to the differential diagnoses produced by single LLMs (average accuracy for single LLMs: $59.0\%\pm 6.1pp$). Discussion: The use of collective intelligence methods to synthesize differential diagnoses combining the responses of different LLMs achieves two of the necessary steps towards advancing acceptance of LLMs as a diagnostic support tool: (1) demonstrate high diagnostic accuracy and (2) eliminate dependence on a single commercial vendor.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
领导范儿应助有丶神采纳,获得10
1秒前
神途完成签到,获得积分10
1秒前
小赖不赖给小赖不赖的求助进行了留言
4秒前
7秒前
爆米花应助haoduoyu采纳,获得10
7秒前
Ferry完成签到 ,获得积分10
7秒前
7秒前
8秒前
9秒前
珍珠奶茶完成签到,获得积分10
10秒前
啊啊啊啊啊啊完成签到,获得积分10
10秒前
有丶神发布了新的文献求助10
10秒前
11秒前
HalfGumps完成签到,获得积分10
13秒前
hou1995发布了新的文献求助10
13秒前
moya发布了新的文献求助10
14秒前
Ann完成签到,获得积分10
14秒前
慕若涵冰完成签到,获得积分10
15秒前
寒冷的平露完成签到,获得积分20
15秒前
15秒前
紫色系发布了新的文献求助10
16秒前
骆白容发布了新的文献求助10
16秒前
zhhl2006完成签到,获得积分10
19秒前
肥鹏完成签到,获得积分10
19秒前
Li发布了新的文献求助10
20秒前
ypzhu完成签到,获得积分10
22秒前
22秒前
华仔应助他和她的猫采纳,获得10
22秒前
moya完成签到,获得积分10
23秒前
23秒前
有丶神完成签到,获得积分10
23秒前
24秒前
搜集达人应助紫色系采纳,获得10
24秒前
向阳生长的花完成签到 ,获得积分10
24秒前
胖蛋蛋蛋完成签到,获得积分10
26秒前
27秒前
27秒前
田様应助恋雅颖月采纳,获得10
30秒前
汉堡包应助cxt采纳,获得10
30秒前
CC发布了新的文献求助10
31秒前
高分求助中
Les Mantodea de Guyane Insecta, Polyneoptera 2500
Technologies supporting mass customization of apparel: A pilot project 450
A Field Guide to the Amphibians and Reptiles of Madagascar - Frank Glaw and Miguel Vences - 3rd Edition 400
Brain and Heart The Triumphs and Struggles of a Pediatric Neurosurgeon 400
Cybersecurity Blueprint – Transitioning to Tech 400
Mixing the elements of mass customisation 400
Периодизация спортивной тренировки. Общая теория и её практическое применение 310
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3785875
求助须知:如何正确求助?哪些是违规求助? 3331224
关于积分的说明 10250683
捐赠科研通 3046706
什么是DOI,文献DOI怎么找? 1672190
邀请新用户注册赠送积分活动 801055
科研通“疑难数据库(出版商)”最低求助积分说明 759979