Extracting structured information from unstructured histopathology reports using generative pre‐trained transformer 4 (GPT‐4)

非结构化数据 计算机科学 人工智能 基本事实 工作量 通俗的语言 变压器 自然语言处理 病理 机器学习 数据挖掘 医学 大数据 工程类 语言学 哲学 电压 电气工程 操作系统
作者
Daniel Truhn,Chiara Maria Lavinia Loeffler,Gustav Müller‐Franzes,Sven Nebelung,Kim Hewitt,Sebastian Brandner,Keno K. Bressem,Sebastian Foersch,Jakob Nikolas Kather
标识
DOI:10.1002/path.6232
摘要

Abstract Deep learning applied to whole‐slide histopathology images (WSIs) has the potential to enhance precision oncology and alleviate the workload of experts. However, developing these models necessitates large amounts of data with ground truth labels, which can be both time‐consuming and expensive to obtain. Pathology reports are typically unstructured or poorly structured texts, and efforts to implement structured reporting templates have been unsuccessful, as these efforts lead to perceived extra workload. In this study, we hypothesised that large language models (LLMs), such as the generative pre‐trained transformer 4 (GPT‐4), can extract structured data from unstructured plain language reports using a zero‐shot approach without requiring any re‐training. We tested this hypothesis by utilising GPT‐4 to extract information from histopathological reports, focusing on two extensive sets of pathology reports for colorectal cancer and glioblastoma. We found a high concordance between LLM‐generated structured data and human‐generated structured data. Consequently, LLMs could potentially be employed routinely to extract ground truth data for machine learning from unstructured pathology reports in the future. © 2023 The Authors. The Journal of Pathology published by John Wiley & Sons Ltd on behalf of The Pathological Society of Great Britain and Ireland.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
3秒前
8秒前
Sun完成签到,获得积分10
12秒前
充电宝应助懒蛋采纳,获得10
14秒前
14秒前
18秒前
唯唯发布了新的文献求助10
23秒前
24秒前
李爱国应助vn采纳,获得10
28秒前
29秒前
30秒前
31秒前
GG发布了新的文献求助10
34秒前
丁小猕发布了新的文献求助10
35秒前
凯瑟琳发布了新的文献求助50
36秒前
37秒前
Jasper应助5High_0采纳,获得10
38秒前
大胆的蛋挞完成签到,获得积分10
38秒前
英姑应助singefly采纳,获得10
40秒前
小王完成签到,获得积分10
40秒前
快乐科研人完成签到,获得积分10
41秒前
42秒前
ding应助江洋大盗采纳,获得10
42秒前
45秒前
45秒前
chen发布了新的文献求助10
46秒前
小二郎应助认真的连虎采纳,获得10
47秒前
SciGPT应助快乐的千秋采纳,获得10
48秒前
vn发布了新的文献求助10
48秒前
bread完成签到,获得积分10
49秒前
51秒前
bread发布了新的文献求助10
52秒前
周杰伦完成签到,获得积分10
52秒前
55秒前
烟花应助梦断璇空采纳,获得10
55秒前
chen完成签到,获得积分10
56秒前
充电宝应助成就千易采纳,获得10
58秒前
GG完成签到,获得积分10
1分钟前
1分钟前
1分钟前
高分求助中
Manual of Clinical Microbiology, 4 Volume Set (ASM Books) 13th Edition 1000
Sport in der Antike 800
De arte gymnastica. The art of gymnastics 600
Berns Ziesemer - Maos deutscher Topagent: Wie China die Bundesrepublik eroberte 500
Stephen R. Mackinnon - Chen Hansheng: China’s Last Romantic Revolutionary (2023) 500
Sport in der Antike Hardcover – March 1, 2015 500
Boris Pesce - Gli impiegati della Fiat dal 1955 al 1999 un percorso nella memoria 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2422697
求助须知:如何正确求助?哪些是违规求助? 2111822
关于积分的说明 5346804
捐赠科研通 1839245
什么是DOI,文献DOI怎么找? 915590
版权声明 561205
科研通“疑难数据库(出版商)”最低求助积分说明 489710