G-CEALS: Gaussian Cluster Embedding in Autoencoder Latent Space for Tabular Data Representation

自编码 聚类分析 嵌入 计算机科学 人工智能 模式识别(心理学) 相关聚类 代表(政治) 特征学习 高斯分布 CURE数据聚类算法 高维数据聚类 数据挖掘 深度学习 物理 量子力学 政治 政治学 法学
作者
Manar D. Samad,Sakib Abrar,Mohammad Bataineh
出处
期刊:Cornell University - arXiv 被引量:1
标识
DOI:10.48550/arxiv.2301.00802
摘要

The latent space of autoencoders has been improved for clustering image data by jointly learning a t-distributed embedding with a clustering algorithm inspired by the neighborhood embedding concept proposed for data visualization. However, multivariate tabular data pose different challenges in representation learning than image data, where traditional machine learning is often superior to deep tabular data learning. In this paper, we address the challenges of learning tabular data in contrast to image data and present a novel Gaussian Cluster Embedding in Autoencoder Latent Space (G-CEALS) algorithm by replacing t-distributions with multivariate Gaussian clusters. Unlike current methods, the proposed approach independently defines the Gaussian embedding and the target cluster distribution to accommodate any clustering algorithm in representation learning. A trained G-CEALS model extracts a quality embedding for unseen test data. Based on the embedding clustering accuracy, the average rank of the proposed G-CEALS method is 1.4 (0.7), which is superior to all eight baseline clustering and cluster embedding methods on seven tabular data sets. This paper shows one of the first algorithms to jointly learn embedding and clustering to improve multivariate tabular data representation in downstream clustering.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
科研通AI5应助666采纳,获得10
刚刚
曾泳钧完成签到,获得积分10
1秒前
仿真小学生完成签到,获得积分10
2秒前
Cys完成签到,获得积分10
3秒前
风夏完成签到,获得积分10
8秒前
大陆完成签到,获得积分10
10秒前
风中梦蕊完成签到 ,获得积分10
10秒前
kevin完成签到,获得积分10
10秒前
寄语明月完成签到,获得积分10
11秒前
跳跃的语柔完成签到 ,获得积分20
18秒前
早起大王完成签到,获得积分10
19秒前
fhw完成签到 ,获得积分10
20秒前
肯德基没有黄焖鸡完成签到 ,获得积分10
20秒前
SciGPT应助朴实凝雁采纳,获得10
22秒前
朱比特完成签到,获得积分10
27秒前
Hello应助司马白晴采纳,获得10
29秒前
cdercder应助科研通管家采纳,获得10
31秒前
汉堡包应助科研通管家采纳,获得10
32秒前
cdercder应助科研通管家采纳,获得10
32秒前
32秒前
冰魂应助科研通管家采纳,获得10
32秒前
充电宝应助科研通管家采纳,获得10
32秒前
大个应助科研通管家采纳,获得10
32秒前
胡子木应助科研通管家采纳,获得20
32秒前
冰魂应助科研通管家采纳,获得10
32秒前
32秒前
AprilLeung完成签到 ,获得积分10
35秒前
36秒前
冷静茉莉完成签到 ,获得积分10
36秒前
小典发布了新的文献求助10
39秒前
可爱的芷云完成签到,获得积分10
41秒前
47秒前
lee完成签到 ,获得积分10
50秒前
嗯嗯嗯哦哦哦完成签到 ,获得积分10
50秒前
51秒前
52秒前
舒适静丹完成签到,获得积分10
52秒前
huhu完成签到 ,获得积分10
53秒前
yuntong完成签到 ,获得积分0
53秒前
司马白晴发布了新的文献求助10
56秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
ISCN 2024 – An International System for Human Cytogenomic Nomenclature (2024) 3000
Continuum Thermodynamics and Material Modelling 2000
Encyclopedia of Geology (2nd Edition) 2000
105th Edition CRC Handbook of Chemistry and Physics 1600
Maneuvering of a Damaged Navy Combatant 650
the MD Anderson Surgical Oncology Manual, Seventh Edition 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3777727
求助须知:如何正确求助?哪些是违规求助? 3323199
关于积分的说明 10213095
捐赠科研通 3038520
什么是DOI,文献DOI怎么找? 1667428
邀请新用户注册赠送积分活动 798139
科研通“疑难数据库(出版商)”最低求助积分说明 758275