已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Data Preprocessing

预处理器 人工智能 模式识别(心理学)
作者
Jiawei Han
出处
期刊:Elsevier eBooks [Elsevier]
卷期号:: 83-124 被引量:130
标识
DOI:10.1016/b978-0-12-381479-1.00003-4
摘要

This chapter introduces the basic concepts of data preprocessing and the methods for data preprocessing are organized into the following categories: data cleaning, data integration, data reduction, and data transformation. Data have quality if they satisfy the requirements of the intended use. There are many factors comprising data quality, including accuracy, completeness, consistency, timeliness, believability, and interpretability. There are several data preprocessing techniques. Data cleaning can be applied to remove noise and correct inconsistencies in data. Data integration merges data from multiple sources into a coherent data store such as a data warehouse. Data reduction can reduce data size by, for instance, aggregating, eliminating redundant features, or clustering. Data transformations (e.g., normalization) may be applied, where data are scaled to fall within a smaller range. This can improve the accuracy and efficiency of mining algorithms involving distance measurements. These techniques are not mutually exclusive; they may work together. For example, data cleaning can involve transformations to correct wrong data, such as by transforming all entries for a date field to a common format. The different attribute types and data characteristics can help identify erroneous values and outliers, which will be useful in the data cleaning and integration steps. Data processing techniques, when applied before mining, can substantially improve the overall quality of the patterns mined and/or the time required for the actual mining.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
wenbo完成签到,获得积分10
1秒前
一斤欠半完成签到 ,获得积分10
3秒前
jie完成签到,获得积分10
5秒前
我是老大应助如意枫叶采纳,获得10
7秒前
村上种树完成签到,获得积分10
7秒前
诺奖失主完成签到,获得积分20
9秒前
海阔天空完成签到 ,获得积分10
9秒前
Tanya完成签到 ,获得积分10
10秒前
Fiona完成签到 ,获得积分10
12秒前
xiao完成签到 ,获得积分10
13秒前
修辛完成签到 ,获得积分10
13秒前
14秒前
科研通AI6应助huhdcid采纳,获得10
19秒前
Zhang完成签到,获得积分10
23秒前
feb完成签到,获得积分10
25秒前
26秒前
27秒前
爆米花应助Demi_Ming采纳,获得10
27秒前
Honor完成签到 ,获得积分10
28秒前
lxh完成签到 ,获得积分10
28秒前
wuhu完成签到 ,获得积分10
29秒前
大方的笑萍完成签到 ,获得积分10
29秒前
韶绍完成签到 ,获得积分10
30秒前
chen发布了新的文献求助10
31秒前
勇胜应助迷路鸭子采纳,获得20
32秒前
33秒前
西吴完成签到 ,获得积分10
35秒前
36秒前
39秒前
一粟完成签到 ,获得积分10
39秒前
40秒前
41秒前
chuo0004完成签到,获得积分10
41秒前
如意枫叶发布了新的文献求助10
43秒前
chen完成签到,获得积分10
43秒前
44秒前
激情的健柏完成签到 ,获得积分10
49秒前
广州小肥羊完成签到 ,获得积分10
49秒前
50秒前
慈祥的丹寒完成签到 ,获得积分10
51秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Social Work Ethics Casebook: Cases and Commentary (revised 2nd ed.).. Frederic G. Reamer 1070
2025-2031年中国兽用抗生素行业发展深度调研与未来趋势报告 1000
List of 1,091 Public Pension Profiles by Region 851
The International Law of the Sea (fourth edition) 800
Introduction to Early Childhood Education 500
A Guide to Genetic Counseling, 3rd Edition 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 物理化学 基因 遗传学 催化作用 冶金 量子力学 光电子学
热门帖子
关注 科研通微信公众号,转发送积分 5418128
求助须知:如何正确求助?哪些是违规求助? 4533812
关于积分的说明 14142564
捐赠科研通 4450102
什么是DOI,文献DOI怎么找? 2441101
邀请新用户注册赠送积分活动 1432850
关于科研通互助平台的介绍 1410065