亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Disambiguation of company names via deep recurrent networks

计算机科学 人工智能 任务(项目管理) 自然语言处理 弦(物理) 管道(软件) 水准点(测量) 标记数据 机器学习 标签 匹配(统计) 社会学 物理 经济 统计 管理 程序设计语言 犯罪学 地理 量子力学 数学 大地测量学
作者
Alessandro Basile,Riccardo Crupi,Michele Grasso,Alessandro Mercanti,Daniele Regoli,Simone Scarsi,Shuyi Yang,Andrea Cosentini
出处
期刊:Expert Systems With Applications [Elsevier BV]
卷期号:238: 122035-122035
标识
DOI:10.1016/j.eswa.2023.122035
摘要

Name Entity Disambiguation is the Natural Language Processing task of identifying textual records corresponding to the same Named Entity, i.e., real-world entities represented as a list of attributes (names, places, organisations, etc.). In this work, we face the task of disambiguating companies on the basis of their written names. We propose a Siamese LSTM Network approach to extract – via supervised learning – an embedding of company name strings in a (relatively) low dimensional vector space and use this representation to identify pairs of company names that actually represent the same company (i.e., the same Entity). Given that the manual labelling of string pairs is a rather onerous task, we analyse how an Active Learning approach to prioritise the samples to be labelled leads to a more efficient overall learning pipeline. The contributions of this work are: with empirical investigations on real-world industrial data, we show that our proposed Siamese Network outperforms several benchmark approaches based on standard string matching algorithms when enough labelled data are available; moreover, we show that Active Learning prioritisation is indeed helpful when labelling resources are limited, and let the learning models reach the out-of-sample performance saturation with less labelled data with respect to standard (random) data labelling approaches.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
1秒前
6秒前
活泼的阁发布了新的文献求助10
6秒前
云氲完成签到 ,获得积分10
7秒前
Hello应助活泼的阁采纳,获得10
14秒前
橙子完成签到 ,获得积分10
19秒前
活泼的阁完成签到,获得积分10
26秒前
那些兔儿完成签到 ,获得积分0
28秒前
小西完成签到 ,获得积分10
42秒前
46秒前
48秒前
郑波涛发布了新的文献求助10
52秒前
54秒前
过氧化氢应助科研通管家采纳,获得10
54秒前
科研通AI2S应助科研通管家采纳,获得10
54秒前
54秒前
54秒前
54秒前
传奇3应助郑波涛采纳,获得10
56秒前
郑波涛完成签到,获得积分10
1分钟前
没烦恼完成签到,获得积分20
1分钟前
memes完成签到 ,获得积分10
1分钟前
1分钟前
1分钟前
芒果完成签到 ,获得积分10
1分钟前
wanci应助饮冰采纳,获得30
1分钟前
aowulan完成签到 ,获得积分10
1分钟前
上官若男应助为治采纳,获得10
1分钟前
1分钟前
1分钟前
TEMPO发布了新的文献求助10
1分钟前
ding应助顺利海安采纳,获得10
1分钟前
复方黄桃干完成签到 ,获得积分10
1分钟前
1分钟前
科目三应助鹿靡采纳,获得10
1分钟前
为治发布了新的文献求助10
1分钟前
shapvalue发布了新的文献求助20
1分钟前
怕孤独的如凡完成签到 ,获得积分10
1分钟前
2分钟前
高分求助中
Applied Survey Data Analysis (第三版, 2025) 800
Narcissistic Personality Disorder 700
The Martian climate revisited: atmosphere and environment of a desert planet 500
Plasmonics 400
建国初期十七年翻译活动的实证研究. 建国初期十七年翻译活动的实证研究 400
Towards a spatial history of contemporary art in China 400
Ecology, Socialism and the Mastery of Nature: A Reply to Reiner Grundmann 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3847627
求助须知:如何正确求助?哪些是违规求助? 3390308
关于积分的说明 10561356
捐赠科研通 3110626
什么是DOI,文献DOI怎么找? 1714425
邀请新用户注册赠送积分活动 825231
科研通“疑难数据库(出版商)”最低求助积分说明 775390