Structured information extraction from scientific text with large language models

计算机科学 关系抽取 信息抽取 任务(项目管理) 情报检索 JSON文件 自然语言处理 简单(哲学) 知识抽取 人工智能 万维网 认识论 哲学 经济 管理
作者
John Dagdelen,Alexander Dunn,Sang‐Hoon Lee,Nicholas Walker,Andrew Rosen,Gerbrand Ceder,Kristin A. Persson,Anubhav Jain
出处
期刊:Nature Communications [Nature Portfolio]
卷期号:15 (1) 被引量:232
标识
DOI:10.1038/s41467-024-45563-x
摘要

Extracting structured knowledge from scientific text remains a challenging task for machine learning models. Here, we present a simple approach to joint named entity recognition and relation extraction and demonstrate how pretrained large language models (GPT-3, Llama-2) can be fine-tuned to extract useful records of complex scientific knowledge. We test three representative tasks in materials chemistry: linking dopants and host materials, cataloging metal-organic frameworks, and general composition/phase/morphology/application information extraction. Records are extracted from single sentences or entire paragraphs, and the output can be returned as simple English sentences or a more structured format such as a list of JSON objects. This approach represents a simple, accessible, and highly flexible route to obtaining large databases of structured specialized scientific knowledge extracted from research papers.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
量子星尘发布了新的文献求助20
刚刚
zlf完成签到,获得积分10
刚刚
满意的伊发布了新的文献求助10
刚刚
脑洞疼应助风_Feng采纳,获得10
刚刚
英俊梦玉完成签到 ,获得积分10
1秒前
1秒前
科目三应助奔奔要早睡采纳,获得10
1秒前
yang完成签到,获得积分20
1秒前
科研CY发布了新的文献求助10
2秒前
雨的印记完成签到,获得积分10
2秒前
开心瓜瓜瓜完成签到,获得积分10
2秒前
账号已注销完成签到,获得积分10
2秒前
adsf完成签到,获得积分10
3秒前
3秒前
小叮当完成签到,获得积分10
3秒前
cayn发布了新的文献求助10
3秒前
辞稚发布了新的文献求助10
3秒前
3秒前
4秒前
麒麟发布了新的文献求助10
4秒前
搜集达人应助tianshicanyi采纳,获得10
5秒前
xingfangshu发布了新的文献求助10
5秒前
6秒前
科研通AI6应助刘一采纳,获得10
6秒前
AIA7发布了新的文献求助10
7秒前
传奇3应助310的LKH采纳,获得10
7秒前
852应助ddddd采纳,获得10
8秒前
李健的小迷弟应助bingchem采纳,获得30
9秒前
adsf发布了新的文献求助10
9秒前
9秒前
科研通AI5应助草莓采纳,获得10
9秒前
深情安青应助账号已注销采纳,获得10
9秒前
南滨完成签到 ,获得积分10
9秒前
筋筋子发布了新的文献求助10
10秒前
jfc完成签到,获得积分10
10秒前
Nil发布了新的文献求助10
10秒前
核桃发布了新的文献求助10
11秒前
今后应助xingfangshu采纳,获得10
11秒前
隐形曼青应助阳光蒸包采纳,获得10
11秒前
斯文败类应助猪猪hero采纳,获得10
12秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Разработка технологических основ обеспечения качества сборки высокоточных узлов газотурбинных двигателей,2000 1000
Vertebrate Palaeontology, 5th Edition 500
ISO/IEC 24760-1:2025 Information security, cybersecurity and privacy protection — A framework for identity management 500
碳捕捉技术能效评价方法 500
Optimization and Learning via Stochastic Gradient Search 500
Nuclear Fuel Behaviour under RIA Conditions 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 4697977
求助须知:如何正确求助?哪些是违规求助? 4067266
关于积分的说明 12574668
捐赠科研通 3766799
什么是DOI,文献DOI怎么找? 2080239
邀请新用户注册赠送积分活动 1108320
科研通“疑难数据库(出版商)”最低求助积分说明 986664