亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Named Entity Recognition and Relation Extraction for COVID-19: Explainable Active Learning with Word2vec Embeddings and Transformer-Based BERT Models

计算机科学 人工智能 文字2vec 自然语言处理 命名实体识别 词(群论) 文字嵌入 深度学习 关系抽取 学习迁移 机器学习
作者
Mercedes Arguello-Casteleiro,Nava Maroto,Chris Wroe,Carlos Sevillano Torrado,Cory Henson,Julio Des-Diz,M.J. Fernandez-Prieto,TJ Furmston,Diego Maseda Fernandez,Mohak Kulshrestha,Robert Stevens,John Keane,Simon Peters
出处
期刊:Lecture Notes in Computer Science 卷期号:: 158-163 被引量:3
标识
DOI:10.1007/978-3-030-91100-3_14
摘要

Deep learning for natural language processing acquires dense vector representations for n-grams from large-scale unstructured corpora. Converting static embeddings of n-grams into a dataset of interlinked concepts with explicit contextual semantic dependencies provides the foundation to acquire reusable knowledge. However, the validation of this knowledge requires cross-checking with ground-truths that may be unavailable in an actionable or computable form. This paper presents a novel approach from the new field of explainable active learning that combines methods for learning static embeddings (word2vec models) with methods for learning dynamic contextual embeddings (transformer-based BERT models). We created a dataset for named entity recognition (NER) and relation extraction (REX) for the Coronavirus Disease 2019 (COVID-19). The COVID-19 dataset has 2,212 associations captured by 11 word2vec models with additional examples of use from the biomedical literature. We propose interpreting the NER and REX tasks for COVID-19 as Question Answering (QA) incorporating general medical knowledge within the question, e.g. “does ‘cough’ (n-gram) belong to ‘clinical presentation/symptoms’ for COVID-19?”. We evaluated biomedical-specific pre-trained language models (BioBERT, SciBERT, ClinicalBERT, BlueBERT, and PubMedBERT) versus general-domain pre-trained language models (BERT, and RoBERTa) for transfer learning with COVID-19 dataset, i.e. task-specific fine-tuning considering NER as a sequence-level task. Using 2,060 QA for training (associations from 10 word2vec models) and 152 QA for validation (associations from 1 word2vec model), BERT obtained an F-measure of 87.38%, with precision = 93.75% and recall = 81.82%. SciBERT achieved the highest F-measure of 94.34%, with precision = 98.04% and recall = 90.91%.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
向阳而生发布了新的文献求助10
8秒前
彭于晏应助科研通管家采纳,获得10
12秒前
烟花应助智多鑫采纳,获得10
13秒前
英姑应助向阳而生采纳,获得10
18秒前
艺涵完成签到,获得积分10
25秒前
28秒前
智多鑫发布了新的文献求助10
33秒前
34秒前
W~舞发布了新的文献求助10
38秒前
外向的从波完成签到,获得积分10
38秒前
康康完成签到 ,获得积分10
42秒前
48秒前
跳跃毒娘发布了新的文献求助10
52秒前
zoey完成签到,获得积分10
1分钟前
Perion完成签到 ,获得积分10
1分钟前
Mannone完成签到 ,获得积分10
1分钟前
W~舞完成签到,获得积分10
1分钟前
小二郎应助三木足球采纳,获得10
1分钟前
1分钟前
1分钟前
ZH完成签到 ,获得积分10
1分钟前
三木足球发布了新的文献求助10
1分钟前
1分钟前
1分钟前
量子星尘发布了新的文献求助10
1分钟前
完美世界应助三木足球采纳,获得10
1分钟前
chenlc971125完成签到 ,获得积分10
1分钟前
1分钟前
三木足球完成签到,获得积分10
2分钟前
2分钟前
2分钟前
Abel发布了新的文献求助10
2分钟前
2分钟前
2分钟前
不安毛豆发布了新的文献求助10
2分钟前
奇迹探索者完成签到,获得积分10
2分钟前
2分钟前
完美世界应助不安毛豆采纳,获得10
2分钟前
汪鸡毛完成签到,获得积分10
2分钟前
高分求助中
【提示信息,请勿应助】关于scihub 10000
The Mother of All Tableaux: Order, Equivalence, and Geometry in the Large-scale Structure of Optimality Theory 3000
Social Research Methods (4th Edition) by Maggie Walter (2019) 2390
A new approach to the extrapolation of accelerated life test data 1000
北师大毕业论文 基于可调谐半导体激光吸收光谱技术泄漏气体检测系统的研究 390
Phylogenetic study of the order Polydesmida (Myriapoda: Diplopoda) 370
Robot-supported joining of reinforcement textiles with one-sided sewing heads 360
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4007845
求助须知:如何正确求助?哪些是违规求助? 3547717
关于积分的说明 11298553
捐赠科研通 3282793
什么是DOI,文献DOI怎么找? 1810216
邀请新用户注册赠送积分活动 885957
科研通“疑难数据库(出版商)”最低求助积分说明 811188