Combining Insights From Multiple Large Language Models Improves Diagnostic Accuracy

计算机科学 自然语言处理 人工智能
作者
Gioele Barabucci,Victor Shia,Eugene Chu,Benjamin Harack,Nathan Fu
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2402.08806
摘要

Background: Large language models (LLMs) such as OpenAI's GPT-4 or Google's PaLM 2 are proposed as viable diagnostic support tools or even spoken of as replacements for "curbside consults". However, even LLMs specifically trained on medical topics may lack sufficient diagnostic accuracy for real-life applications. Methods: Using collective intelligence methods and a dataset of 200 clinical vignettes of real-life cases, we assessed and compared the accuracy of differential diagnoses obtained by asking individual commercial LLMs (OpenAI GPT-4, Google PaLM 2, Cohere Command, Meta Llama 2) against the accuracy of differential diagnoses synthesized by aggregating responses from combinations of the same LLMs. Results: We find that aggregating responses from multiple, various LLMs leads to more accurate differential diagnoses (average accuracy for 3 LLMs: $75.3\%\pm 1.6pp$) compared to the differential diagnoses produced by single LLMs (average accuracy for single LLMs: $59.0\%\pm 6.1pp$). Discussion: The use of collective intelligence methods to synthesize differential diagnoses combining the responses of different LLMs achieves two of the necessary steps towards advancing acceptance of LLMs as a diagnostic support tool: (1) demonstrate high diagnostic accuracy and (2) eliminate dependence on a single commercial vendor.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
踏实安雁完成签到 ,获得积分10
7秒前
小杨完成签到,获得积分20
8秒前
舒适映寒完成签到,获得积分10
8秒前
weilei完成签到,获得积分10
8秒前
Lillianzhu1完成签到,获得积分10
9秒前
阿铭完成签到 ,获得积分10
9秒前
10秒前
连如风发布了新的文献求助10
11秒前
严西完成签到,获得积分10
13秒前
ZL完成签到 ,获得积分10
15秒前
孟子完成签到 ,获得积分10
15秒前
WangVera完成签到,获得积分10
16秒前
乒坛巨人完成签到 ,获得积分0
22秒前
tongkaibing完成签到,获得积分10
23秒前
神勇友灵完成签到,获得积分10
27秒前
ambrose37完成签到 ,获得积分10
29秒前
封迎松完成签到 ,获得积分10
31秒前
lsy完成签到,获得积分10
37秒前
发嗲的慕蕊完成签到 ,获得积分10
43秒前
ADcal完成签到 ,获得积分10
45秒前
Iron_five完成签到 ,获得积分0
46秒前
很多奶油完成签到 ,获得积分10
46秒前
三清小爷完成签到,获得积分10
47秒前
英姑应助2哇哇哇采纳,获得10
48秒前
文文武完成签到,获得积分10
50秒前
看文献完成签到,获得积分0
53秒前
Dan完成签到 ,获得积分10
54秒前
搬砖完成签到 ,获得积分10
54秒前
57秒前
luffy完成签到 ,获得积分10
59秒前
2哇哇哇发布了新的文献求助10
1分钟前
果粒橙完成签到 ,获得积分10
1分钟前
科研通AI2S应助科研通管家采纳,获得10
1分钟前
Lucas应助科研通管家采纳,获得10
1分钟前
1分钟前
恩赐解脱完成签到,获得积分10
1分钟前
eliseo完成签到 ,获得积分10
1分钟前
ZSHAN完成签到,获得积分10
1分钟前
星辰大海应助酷酷海豚采纳,获得30
1分钟前
Hyperion完成签到,获得积分10
1分钟前
高分求助中
【请各位用户详细阅读此贴后再求助】科研通的精品贴汇总(请勿应助) 10000
求 5G-Advanced NTN空天地一体化技术 pdf版 500
International Code of Nomenclature for algae, fungi, and plants (Madrid Code) (Regnum Vegetabile) 500
Maritime Applications of Prolonged Casualty Care: Drowning and Hypothermia on an Amphibious Warship 500
Comparison analysis of Apple face ID in iPad Pro 13” with first use of metasurfaces for diffraction vs. iPhone 16 Pro 500
Towards a $2B optical metasurfaces opportunity by 2029: a cornerstone for augmented reality, an incremental innovation for imaging (YINTR24441) 500
Robot-supported joining of reinforcement textiles with one-sided sewing heads 490
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4068120
求助须知:如何正确求助?哪些是违规求助? 3607086
关于积分的说明 11451202
捐赠科研通 3327839
什么是DOI,文献DOI怎么找? 1829612
邀请新用户注册赠送积分活动 899430
科研通“疑难数据库(出版商)”最低求助积分说明 819626