Document-level attention-based BiLSTM-CRF incorporating disease dictionary for disease named entity recognition

计算机科学 命名实体识别 疾病 人工智能 自然语言处理 医学 病理 工程类 任务(项目管理) 系统工程
作者
Kai Xu,Zhenguo Yang,Peipei Kang,Qi Wang,Wenyin Liu
出处
期刊:Computers in Biology and Medicine [Elsevier BV]
卷期号:108: 122-132 被引量:99
标识
DOI:10.1016/j.compbiomed.2019.04.002
摘要

Disease named entity recognition (NER) plays an important role in biomedical research. There are a significant number of challenging issues to be addressed; among these, the identification of rare diseases and complex disease names and the problem of tagging inconsistency (i.e., if an entity is tagged differently in a document) are attracting substantial research attention.We propose a new neural network method named Dic-Att-BiLSTM-CRF (DABLC) for disease NER. DABLC applies an efficient exact string matching method to match disease entities with a disease dictionary; here, the dictionary is constructed based on the Disease Ontology. Furthermore, DABLC constructs a dictionary attention layer by incorporating a disease dictionary matching method and document-level attention mechanism. Finally, a bidirectional long short-term memory network and conditional random field (BiLSTM-CRF) with a dictionary attention layer is proposed to combine the disease dictionary to develop disease NER.Extensive experiments are conducted on two widely-used corpora: the NCBI disease corpus and the BioCreative V CDR corpus. We apply each test on 10 executions of each model, with a 95% confidence interval. DABLC achieves the highest F1 scores (NCBI: Precision = 0.883, Recall = 0.89, F1 = 0.886; BioCreative V CDR: Precision = 0.891, Recall = 0.875, F1 = 0.883), outperforming the state-of-the-art methods.DABLC combines the advantages of both external dictionary resources and deep attention neural networks. This aids the identification of rare diseases and complex disease names; moreover, it reduces the impact of tagging inconsistency. Special disease NER and deep learning models addressing long sentences are noteworthy areas for future examination.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
王志新完成签到,获得积分10
1秒前
大胆诗霜完成签到,获得积分10
2秒前
叶雪怡完成签到 ,获得积分10
2秒前
drjyang完成签到,获得积分10
2秒前
111完成签到 ,获得积分10
3秒前
felix发布了新的文献求助10
4秒前
zyy完成签到 ,获得积分10
5秒前
科研yu完成签到,获得积分10
5秒前
辛辛那提完成签到,获得积分10
5秒前
fting完成签到 ,获得积分10
6秒前
6秒前
时尚中二完成签到,获得积分10
7秒前
zt完成签到,获得积分10
9秒前
hustscholar完成签到,获得积分10
10秒前
Lyubb完成签到,获得积分10
11秒前
靓丽千琴发布了新的文献求助10
12秒前
岁岁完成签到 ,获得积分10
12秒前
前进中完成签到,获得积分10
13秒前
davyean完成签到,获得积分10
15秒前
凤凰应助tong采纳,获得80
15秒前
铁甲小杨完成签到,获得积分10
15秒前
ataybabdallah完成签到,获得积分10
17秒前
exquisite完成签到,获得积分10
17秒前
鸽子完成签到,获得积分10
17秒前
yy完成签到 ,获得积分10
17秒前
roger完成签到,获得积分10
17秒前
728完成签到,获得积分10
18秒前
666完成签到 ,获得积分10
19秒前
银海里的玫瑰_完成签到 ,获得积分10
20秒前
山河星梦完成签到,获得积分10
20秒前
有血条就敢上完成签到 ,获得积分10
24秒前
会飞的猪完成签到,获得积分10
24秒前
梦亦非完成签到,获得积分10
24秒前
星辰大海应助博博要毕业采纳,获得30
24秒前
沐沐汐完成签到 ,获得积分10
25秒前
学术大佬阿呆完成签到 ,获得积分10
27秒前
平淡豁完成签到,获得积分10
27秒前
娇气的天亦完成签到,获得积分10
28秒前
小林子完成签到,获得积分0
29秒前
雨滴音乐完成签到,获得积分10
31秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Fermented Coffee Market 2000
PARLOC2001: The update of loss containment data for offshore pipelines 500
Critical Thinking: Tools for Taking Charge of Your Learning and Your Life 4th Edition 500
Phylogenetic study of the order Polydesmida (Myriapoda: Diplopoda) 500
A Manual for the Identification of Plant Seeds and Fruits : Second revised edition 500
Vertebrate Palaeontology, 5th Edition 340
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 5256478
求助须知:如何正确求助?哪些是违规求助? 4418730
关于积分的说明 13753082
捐赠科研通 4291913
什么是DOI,文献DOI怎么找? 2355182
邀请新用户注册赠送积分活动 1351622
关于科研通互助平台的介绍 1312330