Missing Data Preprocessing in Credit Classification: One-Hot Encoding or Imputation?

缺少数据 插补(统计学) 计算机科学 预处理器 数据挖掘 数据预处理 稳健性(进化) 随机森林 回归 人工智能 统计 机器学习 数学 生物化学 基因 化学
作者
Lean Yu,Rongtian Zhou,Rongda Chen,Kin Keung Lai
出处
期刊:Emerging Markets Finance and Trade [Informa]
卷期号:58 (2): 472-482 被引量:46
标识
DOI:10.1080/1540496x.2020.1825935
摘要

Missing data has become an increasingly serious problem in credit risk classification. A one-hot encoding-based data preprocessing method is proposed to solve the missing data problem in credit classification. In this paradigm, the proposed missing-data preprocessing method is first used to deal with missing values to fill in the incomplete dataset. Then the classification and regression tree (CART) model is applied on the completed dataset to measure performances of different preprocessing methods. The experimental results indicate that the proposed one-hot encoding method performs the best when the missing rate is high. When missing rate is low, random sample (RS) imputation method performs better though it entails a greater computational cost than other imputation methods listed in this study. In particular, for high-missing-rate coupled with data-imbalance issue, the proposed one-hot encoding based imputation method shows not only high accuracy, but also great robustness and needs less of computational time.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
CWNU_HAN应助阔达的梦玉采纳,获得30
1秒前
1秒前
9℃发布了新的文献求助10
4秒前
11秒前
13秒前
Hello应助轩辕唯雪采纳,获得10
15秒前
16秒前
鱿鱼发布了新的文献求助10
16秒前
Alanni发布了新的文献求助10
18秒前
坚强的广山应助谷歌采纳,获得10
18秒前
liu欣慰发布了新的文献求助10
19秒前
ghy关注了科研通微信公众号
22秒前
bee应助积极的惜萱采纳,获得10
23秒前
liyiliyi117完成签到,获得积分10
24秒前
26秒前
liu欣慰完成签到,获得积分20
27秒前
29秒前
pxptmac完成签到,获得积分10
30秒前
cccxxxyyy发布了新的文献求助10
30秒前
天天快乐应助hangOn采纳,获得10
31秒前
完美世界应助犹豫的忆梅采纳,获得10
33秒前
33秒前
36秒前
37秒前
不变皆旗完成签到,获得积分10
38秒前
平常映雁发布了新的文献求助10
38秒前
41秒前
八轩发布了新的文献求助10
41秒前
hangOn发布了新的文献求助10
42秒前
ming完成签到 ,获得积分10
45秒前
Qianyue发布了新的文献求助10
45秒前
小紫完成签到,获得积分10
46秒前
47秒前
溪鱼发布了新的文献求助10
50秒前
田様应助英俊鼠标采纳,获得30
50秒前
zzz完成签到,获得积分10
50秒前
51秒前
关尔发布了新的文献求助10
52秒前
做个大侠发布了新的文献求助10
56秒前
大观天下发布了新的文献求助10
58秒前
高分求助中
The Illustrated History of Gymnastics 800
The Bourse of Babylon : market quotations in the astronomical diaries of Babylonia 680
Division and square root. Digit-recurrence algorithms and implementations 500
機能營養學前瞻(3 Ed.) 300
Problems of transcultural communication 300
Zwischen Selbstbestimmung und Selbstbehauptung 300
Johann Gottlieb Fichte: Die späten wissenschaftlichen Vorlesungen / IV,1: ›Transzendentale Logik I (1812)‹ 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2504689
求助须知:如何正确求助?哪些是违规求助? 2157782
关于积分的说明 5522642
捐赠科研通 1878190
什么是DOI,文献DOI怎么找? 934131
版权声明 563932
科研通“疑难数据库(出版商)”最低求助积分说明 498937