DWIE: An entity-centric dataset for multi-task document-level information extraction

共指 计算机科学 信息抽取 自然语言处理 图形 人工智能 情报检索 任务(项目管理) 基本事实 公制(单位) 注释 分辨率(逻辑) 理论计算机科学 运营管理 经济 管理
作者
Klim Zaporojets,Johannes Deleu,Chris Develder,Thomas Demeester
出处
期刊:Information Processing and Management [Elsevier]
卷期号:58 (4): 102563-102563 被引量:22
标识
DOI:10.1016/j.ipm.2021.102563
摘要

This paper presents DWIE, the ‘Deutsche Welle corpus for Information Extraction’, a newly created multi-task dataset that combines four main Information Extraction (IE) annotation subtasks: (i) Named Entity Recognition (NER), (ii) Coreference Resolution, (iii) Relation Extraction (RE), and (iv) Entity Linking. DWIE is conceived as an entity-centric dataset that describes interactions and properties of conceptual entities on the level of the complete document. This contrasts with currently dominant mention-driven approaches that start from the detection and classification of named entity mentions in individual sentences. Further, DWIE presented two main challenges when building and evaluating IE models for it. First, the use of traditional mention-level evaluation metrics for NER and RE tasks on entity-centric DWIE dataset can result in measurements dominated by predictions on more frequently mentioned entities. We tackle this issue by proposing a new entity-driven metric that takes into account the number of mentions that compose each of the predicted and ground truth entities. Second, the document-level multi-task annotations require the models to transfer information between entity mentions located in different parts of the document, as well as between different tasks, in a joint learning setting. To realize this, we propose to use graph-based neural message passing techniques between document-level mention spans. Our experiments show an improvement of up to 5.5 F1 percentage points when incorporating neural graph propagation into our joint model. This demonstrates DWIE’s potential to stimulate further research in graph neural networks for representation learning in multi-task IE. We make DWIE publicly available at https://github.com/klimzaporojets/DWIE.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
小木虫完成签到 ,获得积分10
4秒前
feng完成签到 ,获得积分10
4秒前
紫瓜完成签到,获得积分10
6秒前
阳光彩虹小白马完成签到 ,获得积分10
8秒前
段段完成签到 ,获得积分10
8秒前
WXM完成签到 ,获得积分10
16秒前
Felix完成签到 ,获得积分10
19秒前
Tree_完成签到 ,获得积分10
22秒前
23秒前
kuangquanshui发布了新的文献求助10
29秒前
ycd完成签到,获得积分10
29秒前
沉默的小耳朵完成签到 ,获得积分10
40秒前
NN完成签到,获得积分10
40秒前
我就想看看文献完成签到 ,获得积分10
53秒前
Lialilico完成签到,获得积分10
55秒前
李爱国应助Jeffery426采纳,获得10
56秒前
1分钟前
天天快乐应助aruia采纳,获得10
1分钟前
kuangquanshui发布了新的文献求助10
1分钟前
星星完成签到 ,获得积分10
1分钟前
萝卜丁完成签到 ,获得积分10
1分钟前
cheney完成签到,获得积分10
1分钟前
Hasee完成签到 ,获得积分10
1分钟前
sssss完成签到 ,获得积分10
1分钟前
研友_Z34o28完成签到,获得积分10
1分钟前
qqq完成签到 ,获得积分10
1分钟前
mit完成签到 ,获得积分10
1分钟前
风起云涌龙完成签到 ,获得积分0
1分钟前
逍遥游完成签到,获得积分10
1分钟前
青矜完成签到 ,获得积分10
1分钟前
PDIF-CN2完成签到,获得积分10
1分钟前
韧迹完成签到 ,获得积分10
1分钟前
研友_Z60x5L完成签到 ,获得积分10
1分钟前
setsail0816发布了新的文献求助10
2分钟前
xpx完成签到 ,获得积分10
2分钟前
佟莫言完成签到 ,获得积分10
2分钟前
科研张完成签到 ,获得积分10
2分钟前
C5b6789n完成签到,获得积分10
2分钟前
chf102完成签到 ,获得积分10
2分钟前
baobao完成签到,获得积分10
2分钟前
高分求助中
请在求助之前详细阅读求助说明!!!! 20000
The Three Stars Each: The Astrolabes and Related Texts 900
Yuwu Song, Biographical Dictionary of the People's Republic of China 700
Bernd Ziesemer - Maos deutscher Topagent: Wie China die Bundesrepublik eroberte 500
A radiographic standard of reference for the growing knee 400
Glossary of Geology 400
Additive Manufacturing Design and Applications 320
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2473655
求助须知:如何正确求助?哪些是违规求助? 2138826
关于积分的说明 5450857
捐赠科研通 1862840
什么是DOI,文献DOI怎么找? 926240
版权声明 562817
科研通“疑难数据库(出版商)”最低求助积分说明 495463