清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Comparitive performance of artificial intelligence-based large language models on the orthopedic in-training examination

骨科手术 医学 主题(文档) 主题 订单(交换) 内科学 外科 人工智能 心理学 图书馆学 计算机科学 课程 财务 教育学 经济
作者
Andrew Xu,Manjot Singh,Mariah Balmaceno-Criss,A. Oh,Don Leigh,Mohammad Daher,Daniel Alsoof,Alan H. Daniels,Bassel G. Diebo,Alan H. Daniels
出处
期刊:Journal of orthopaedic surgery [SAGE]
卷期号:33 (1): 10225536241268789-10225536241268789 被引量:5
标识
DOI:10.1177/10225536241268789
摘要

Background Large language models (LLMs) have many clinical applications. However, the comparative performance of different LLMs on orthopedic board style questions remains largely unknown. Methods Three LLMs, OpenAI’s GPT-4 and GPT-3.5, and Google Bard, were tested on 189 official 2022 Orthopedic In-Training Examination (OITE) questions. Comparative analyses were conducted to assess their performance against orthopedic resident scores and on higher-order, image-associated, and subject category-specific questions. Results GPT-4 surpassed the passing threshold for the 2022 OITE, performing at the level of PGY-3 to PGY-5 ( p = .149, p = .502, and p = .818, respectively) and outperforming GPT-3.5 and Bard ( p < .001 and p = .001, respectively). While GPT-3.5 and Bard did not meet the passing threshold for the exam, GPT-3.5 performed at the level of PGY-1 to PGY-2 ( p = .368 and p = .019, respectively) and Bard performed at the level of PGY-1 to PGY-3 ( p = .440, .498, and 0.036, respectively). GPT-4 outperformed both Bard and GPT-3.5 on image-associated ( p = .003 and p < .001, respectively) and higher-order questions ( p < .001). Among the 11 subject categories, all models performed similarly regardless of the subject matter. When individual LLM performance on higher-order questions was assessed, no significant differences were found compared to performance on first order questions (GPT-4 p = .139, GPT-3.5 p = .124, Bard p = .319). Finally, when individual model performance was assessed on image-associated questions, only GPT-3.5 performed significantly worse compared to performance on non-image-associated questions ( p = .045). Conclusion The AI-based LLM GPT-4, exhibits a robust ability to correctly answer a diverse range of OITE questions, exceeding the minimum score for the 2022 OITE, and outperforming predecessor GPT-3.5 and Google Bard.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
搜集达人应助冥土追魂采纳,获得10
刚刚
齐多达完成签到 ,获得积分10
1秒前
千帆破浪完成签到 ,获得积分10
16秒前
36秒前
冥土追魂发布了新的文献求助10
40秒前
lorentzh完成签到,获得积分10
49秒前
CipherSage应助冥土追魂采纳,获得20
53秒前
勤奋流沙完成签到 ,获得积分10
1分钟前
wujiwuhui完成签到 ,获得积分10
1分钟前
昌莆完成签到 ,获得积分10
1分钟前
1分钟前
冥土追魂发布了新的文献求助20
1分钟前
悠米爱吃图奇完成签到 ,获得积分10
1分钟前
HOLLYWOO完成签到 ,获得积分10
1分钟前
keyan123完成签到,获得积分10
1分钟前
共享精神应助冥土追魂采纳,获得20
1分钟前
风信子完成签到,获得积分10
2分钟前
2分钟前
飞云完成签到 ,获得积分10
2分钟前
冥土追魂完成签到,获得积分10
2分钟前
冥土追魂发布了新的文献求助20
2分钟前
虞无声发布了新的文献求助50
2分钟前
Asin发布了新的文献求助10
2分钟前
3分钟前
虫子发布了新的文献求助10
3分钟前
虫子完成签到,获得积分10
3分钟前
3分钟前
长毛象完成签到 ,获得积分10
3分钟前
Li发布了新的文献求助10
3分钟前
hyl-tcm完成签到 ,获得积分10
3分钟前
周全完成签到 ,获得积分10
3分钟前
虞无声发布了新的文献求助50
4分钟前
闲人颦儿完成签到,获得积分0
4分钟前
慧慧34完成签到 ,获得积分10
4分钟前
4分钟前
最棒哒完成签到 ,获得积分10
4分钟前
潜行者完成签到 ,获得积分10
4分钟前
Karry完成签到 ,获得积分10
4分钟前
5分钟前
艳艳宝完成签到 ,获得积分10
5分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
List of 1,091 Public Pension Profiles by Region 1621
Lloyd's Register of Shipping's Approach to the Control of Incidents of Brittle Fracture in Ship Structures 1000
Brittle fracture in welded ships 1000
King Tyrant 600
Laryngeal Mask Anesthesia: Principles and Practice. 2nd ed 500
The Composition and Relative Chronology of Dynasties 16 and 17 in Egypt 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5565121
求助须知:如何正确求助?哪些是违规求助? 4649981
关于积分的说明 14689383
捐赠科研通 4591817
什么是DOI,文献DOI怎么找? 2519371
邀请新用户注册赠送积分活动 1491920
关于科研通互助平台的介绍 1463085