亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Imbalanced data oversampling through subspace optimization with Bayesian reinforcement

过采样 计算机科学 子空间拓扑 机器学习 人工智能 支持向量机 随机森林 分类器(UML) 贝叶斯概率 随机子空间法 模式识别(心理学) 特征(语言学) 强化学习 朴素贝叶斯分类器 线性子空间 特征向量 过程(计算) 数据挖掘 Dirichlet分布 过度拟合 相关性(法律) 非线性系统 相关向量机 干扰素 关系(数据库) 实证研究 遗传算法
作者
Mahesh Kumbhar,Sunith Bandaru,Alexander Karlsson
出处
期刊:Artificial Intelligence Review [Springer Nature]
卷期号:59 (1)
标识
DOI:10.1007/s10462-025-11417-1
摘要

Abstract Many real-world machine learning classification problems suffer from imbalanced training data, where the least frequent label has high relevance and significance for the end user, such as equipment breakdowns or various types of process anomalies. This imbalance can negatively impact the learning algorithm and lead to misclassification of minority labels, resulting in erroneous actions and potentially high unexpected costs. Most previous oversampling methods rely only on the minority samples, often ignoring their overall density and distribution in relation to the other classes. In addition, most of them lack in the oversampling method’s explainability. In contrast, this paper proposes a novel oversampling method that considers a subspace of the feature-set for the creation of synthetic minority samples using nonlinear optimization of a class-sensitive objective function. Suitable subspaces for oversampling are identified through a Bayesian reinforcement strategy based on Dirichlet smoothing, which may be useful for explainable-AI. An empirical comparison of the proposed method is performed with 10 existing techniques on 18 real-world datasets using two traditional machine learning classifiers and four evaluation metrics. Statistical analysis of cross-validated runs over the 18 datasets and four metrics (i.e. 72 experiments) reveals that the proposed approach is among the best performing methods in 6 and 2 instances when using random forest classifier and support vector machine classifier, thus placing it at the top. The study also reveals that some feature combinations are more important than others for minority oversampling, and the proposed approach offers a way to identify such features.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
10秒前
16秒前
姜磊发布了新的文献求助10
16秒前
17秒前
张晓祁完成签到,获得积分10
20秒前
飞快的小懒猪完成签到 ,获得积分10
29秒前
yueying完成签到,获得积分10
30秒前
七月份的表完成签到,获得积分10
35秒前
39秒前
HYQ完成签到 ,获得积分10
40秒前
Twonej应助vickyyy采纳,获得30
51秒前
52秒前
可一可再完成签到 ,获得积分10
56秒前
Lucas应助桃花源的瓶起子采纳,获得10
1分钟前
姜磊完成签到,获得积分20
1分钟前
null应助科研通管家采纳,获得10
1分钟前
null应助科研通管家采纳,获得10
1分钟前
null应助科研通管家采纳,获得10
1分钟前
2分钟前
曦耀发布了新的文献求助10
2分钟前
ssu90完成签到 ,获得积分10
2分钟前
大模型应助星落枝头采纳,获得10
2分钟前
2分钟前
星落枝头完成签到,获得积分10
2分钟前
星落枝头发布了新的文献求助10
2分钟前
维奈克拉举报sl960822求助涉嫌违规
2分钟前
2分钟前
Mmrc发布了新的文献求助30
3分钟前
zqq完成签到,获得积分0
3分钟前
花生酱完成签到,获得积分10
3分钟前
SciGPT应助12采纳,获得10
3分钟前
KWANZ完成签到,获得积分10
3分钟前
3分钟前
胡林发布了新的文献求助10
3分钟前
null应助科研通管家采纳,获得10
3分钟前
null应助科研通管家采纳,获得10
3分钟前
null应助科研通管家采纳,获得10
3分钟前
Qing发布了新的文献求助10
3分钟前
传奇3应助drcc采纳,获得10
3分钟前
花生酱关注了科研通微信公众号
4分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Encyclopedia of Reproduction Third Edition 3000
《药学类医疗服务价格项目立项指南(征求意见稿)》 1000
花の香りの秘密―遺伝子情報から機能性まで 800
1st Edition Sports Rehabilitation and Training Multidisciplinary Perspectives By Richard Moss, Adam Gledhill 600
Chemistry and Biochemistry: Research Progress Vol. 7 430
Bone Marrow Immunohistochemistry 400
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5628101
求助须知:如何正确求助?哪些是违规求助? 4715567
关于积分的说明 14963616
捐赠科研通 4785765
什么是DOI,文献DOI怎么找? 2555328
邀请新用户注册赠送积分活动 1516636
关于科研通互助平台的介绍 1477166