Efficient algorithms for mining outliers from large data sets

离群值 计算机科学 不相交集 分拆(数论) 数据挖掘 算法 k-最近邻算法 维数之咒 集合(抽象数据类型) 人工智能 数学 组合数学 程序设计语言
作者
Sridhar Ramaswamy,Rajeev Rastogi,Kyuseok Shim
出处
期刊:Sigmod Record [Association for Computing Machinery]
卷期号:29 (2): 427-438 被引量:1081
标识
DOI:10.1145/335191.335437
摘要

In this paper, we propose a novel formulation for distance-based outliers that is based on the distance of a point from its k th nearest neighbor. We rank each point on the basis of its distance to its k th nearest neighbor and declare the top n points in this ranking to be outliers. In addition to developing relatively straightforward solutions to finding such outliers based on the classical nested-loop join and index join algorithms, we develop a highly efficient partition-based algorithm for mining outliers. This algorithm first partitions the input data set into disjoint subsets, and then prunes entire partitions as soon as it is determined that they cannot contain outliers. This results in substantial savings in computation. We present the results of an extensive experimental study on real-life and synthetic data sets. The results from a real-life NBA database highlight and reveal several expected and unexpected aspects of the database. The results from a study on synthetic data sets demonstrate that the partition-based algorithm scales well with respect to both data set size and data set dimensionality.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
钢笔完成签到,获得积分10
8秒前
10秒前
10秒前
wanci应助科研通管家采纳,获得10
10秒前
Owen应助科研通管家采纳,获得10
10秒前
妧素衣应助科研通管家采纳,获得10
10秒前
852应助科研通管家采纳,获得10
11秒前
shinysparrow应助科研通管家采纳,获得10
11秒前
丘比特应助科研通管家采纳,获得10
11秒前
充电宝应助科研通管家采纳,获得10
11秒前
田様应助科研通管家采纳,获得10
11秒前
shinysparrow应助科研通管家采纳,获得10
11秒前
充电宝应助科研通管家采纳,获得10
11秒前
16秒前
拉长的问凝完成签到,获得积分10
22秒前
28秒前
30秒前
31秒前
zzzzqqqq完成签到,获得积分20
32秒前
33秒前
llihau完成签到,获得积分20
33秒前
spirit 雪发布了新的文献求助10
35秒前
zzzzqqqq发布了新的文献求助30
35秒前
阿宇1111完成签到,获得积分10
36秒前
hani完成签到,获得积分10
36秒前
阿宇1111发布了新的文献求助10
38秒前
39秒前
44秒前
spirit 雪完成签到,获得积分10
45秒前
46秒前
庾稀发布了新的文献求助10
49秒前
53秒前
加鲁鲁完成签到 ,获得积分10
56秒前
1分钟前
baoziya完成签到 ,获得积分10
1分钟前
医学小萌新完成签到,获得积分10
1分钟前
薛变霞完成签到 ,获得积分10
1分钟前
1分钟前
sunzhou2008完成签到,获得积分10
1分钟前
娟不卷发布了新的文献求助10
1分钟前
高分求助中
请在求助之前详细阅读求助说明!!!! 20000
One Man Talking: Selected Essays of Shao Xunmei, 1929–1939 1000
The Three Stars Each: The Astrolabes and Related Texts 900
Yuwu Song, Biographical Dictionary of the People's Republic of China 700
[Lambert-Eaton syndrome without calcium channel autoantibodies] 520
Bernd Ziesemer - Maos deutscher Topagent: Wie China die Bundesrepublik eroberte 500
A radiographic standard of reference for the growing knee 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2471499
求助须知:如何正确求助?哪些是违规求助? 2138063
关于积分的说明 5448239
捐赠科研通 1862029
什么是DOI,文献DOI怎么找? 926029
版权声明 562747
科研通“疑难数据库(出版商)”最低求助积分说明 495308