清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Unsupervised Evaluation of Entity Resolution

计算机科学 分辨率(逻辑) 人工智能 数据挖掘
作者
Charini Nanayakkara,Peter Christen,Victor Christen
出处
期刊:Journal of Data and Information Quality [Association for Computing Machinery]
标识
DOI:10.1145/3721985
摘要

Entity resolution is the problem of identifying records that refer to the same entity from one or multiple databases. Applications of entity resolution range from health and social science research to national security and online commerce. Entity resolution can be viewed as a classification task where pairs of records are classified as matches (referring to the same entity) or non-matches (referring to different entities). Alternatively, clustering-based entity resolution methods generate clusters of records such that each cluster refers to one entity, and each entity is represented by one cluster. If ground truth data in the form of known matches and non-matches are available, then performance measures such as precision, recall, and the F-measure, are commonly used to evaluate the quality of entity resolution methods. In practical applications, however, ground truth data are often not available, or they can be incomplete or biased, making quality evaluation challenging. To overcome this gap, we develop multiple methods to evaluate the quality of an entity resolution result without the need of ground truth data by calculating estimated numbers of true and false matches, as well as missed matches. These allow the calculation of estimates for precision, recall, and the F-measure. Our methods are either based on analysing links (classified record pairs) or the clustering structure provided by an entity resolution method. We validate our methods on multiple data sets from diverse domains, showing they can obtain precision and recall estimates close to their true values.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
海洋岩土12138完成签到 ,获得积分10
8秒前
16秒前
21秒前
SciGPT应助贪玩钢铁侠采纳,获得10
27秒前
1分钟前
乐乐完成签到 ,获得积分10
1分钟前
1分钟前
1分钟前
1分钟前
1分钟前
Noah完成签到 ,获得积分0
1分钟前
简奥斯汀完成签到 ,获得积分10
1分钟前
无悔完成签到 ,获得积分10
1分钟前
搜集达人应助Tethys采纳,获得10
1分钟前
温暖坚定完成签到 ,获得积分10
2分钟前
2分钟前
Tethys发布了新的文献求助10
2分钟前
呆萌的语芹完成签到,获得积分10
2分钟前
蚂蚁踢大象完成签到 ,获得积分10
3分钟前
大胆的小懒猪完成签到 ,获得积分10
3分钟前
胃是内分泌器官完成签到,获得积分10
3分钟前
希望天下0贩的0应助automan采纳,获得10
3分钟前
浚稚完成签到 ,获得积分10
3分钟前
ding应助细心的语蓉采纳,获得30
3分钟前
3分钟前
3分钟前
automan发布了新的文献求助10
3分钟前
3分钟前
automan完成签到,获得积分10
3分钟前
桐桐应助火焰向上采纳,获得10
4分钟前
zzhui完成签到,获得积分10
4分钟前
4分钟前
nihaoxjm发布了新的文献求助10
4分钟前
李志全完成签到 ,获得积分10
5分钟前
老实皮卡丘完成签到 ,获得积分10
5分钟前
雪白的面包完成签到 ,获得积分10
5分钟前
小西完成签到 ,获得积分10
5分钟前
space完成签到 ,获得积分10
5分钟前
5分钟前
SciGPT应助细心的语蓉采纳,获得10
5分钟前
高分求助中
Les Mantodea de Guyane Insecta, Polyneoptera 2500
Technologies supporting mass customization of apparel: A pilot project 450
A Field Guide to the Amphibians and Reptiles of Madagascar - Frank Glaw and Miguel Vences - 3rd Edition 400
A China diary: Peking 400
Brain and Heart The Triumphs and Struggles of a Pediatric Neurosurgeon 400
Cybersecurity Blueprint – Transitioning to Tech 400
Mixing the elements of mass customisation 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3784818
求助须知:如何正确求助?哪些是违规求助? 3330065
关于积分的说明 10244270
捐赠科研通 3045410
什么是DOI,文献DOI怎么找? 1671678
邀请新用户注册赠送积分活动 800597
科研通“疑难数据库(出版商)”最低求助积分说明 759524