Why do tree-based models still outperform deep learning on tabular data?

超参数 计算机科学 水准点(测量) 标杆管理 人工智能 机器学习 树(集合论) 集合(抽象数据类型) 深度学习 原始数据 数据集 点(几何) 数据挖掘 数学 几何学 数学分析 业务 营销 大地测量学 程序设计语言 地理
作者
Léo Grinsztajn,Edouard Oyallon,Gaël Varoquaux
出处
期刊:Cornell University - arXiv 被引量:10
标识
DOI:10.48550/arxiv.2207.08815
摘要

While deep learning has enabled tremendous progress on text and image datasets, its superiority on tabular data is not clear. We contribute extensive benchmarks of standard and novel deep learning methods as well as tree-based models such as XGBoost and Random Forests, across a large number of datasets and hyperparameter combinations. We define a standard set of 45 datasets from varied domains with clear characteristics of tabular data and a benchmarking methodology accounting for both fitting models and finding good hyperparameters. Results show that tree-based models remain state-of-the-art on medium-sized data ($\sim$10K samples) even without accounting for their superior speed. To understand this gap, we conduct an empirical investigation into the differing inductive biases of tree-based models and Neural Networks (NNs). This leads to a series of challenges which should guide researchers aiming to build tabular-specific NNs: 1. be robust to uninformative features, 2. preserve the orientation of the data, and 3. be able to easily learn irregular functions. To stimulate research on tabular architectures, we contribute a standard benchmark and raw data for baselines: every point of a 20 000 compute hours hyperparameter search for each learner.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
调皮帆布鞋完成签到,获得积分10
1秒前
健壮的秋寒完成签到,获得积分10
1秒前
Charlotte完成签到,获得积分10
1秒前
子系郎完成签到,获得积分10
1秒前
好运常在完成签到,获得积分10
2秒前
Swilder完成签到 ,获得积分10
2秒前
FashionBoy应助jilgy采纳,获得10
3秒前
高挑的听南完成签到,获得积分10
3秒前
linxi完成签到,获得积分10
4秒前
努恩完成签到,获得积分10
4秒前
管理想完成签到,获得积分20
5秒前
5秒前
xhsz1111完成签到 ,获得积分10
5秒前
学术大亨完成签到,获得积分10
6秒前
单薄树叶完成签到,获得积分10
7秒前
xyawl425完成签到,获得积分10
7秒前
7秒前
Silence完成签到,获得积分0
7秒前
圆圆完成签到,获得积分10
8秒前
yifei完成签到,获得积分10
8秒前
hanhan完成签到,获得积分10
8秒前
lan兰发布了新的文献求助20
8秒前
一朵小鲜花儿完成签到,获得积分10
8秒前
111完成签到,获得积分10
10秒前
潘子完成签到,获得积分10
10秒前
李兴完成签到 ,获得积分10
10秒前
jackycas完成签到,获得积分10
10秒前
学习猴完成签到,获得积分10
11秒前
11秒前
直率的沛槐关注了科研通微信公众号
11秒前
AHR发布了新的文献求助10
11秒前
来玩的完成签到,获得积分10
11秒前
yue完成签到,获得积分10
12秒前
lfg完成签到,获得积分20
12秒前
weijie完成签到,获得积分10
12秒前
望仔发布了新的文献求助10
12秒前
popcoming完成签到,获得积分10
13秒前
hope完成签到,获得积分10
13秒前
稳重的峻熙完成签到,获得积分10
13秒前
平淡的雁开完成签到 ,获得积分10
14秒前
高分求助中
Les Mantodea de Guyane Insecta, Polyneoptera 2500
Mobilization, center-periphery structures and nation-building 600
Technologies supporting mass customization of apparel: A pilot project 600
Introduction to Strong Mixing Conditions Volumes 1-3 500
China—Art—Modernity: A Critical Introduction to Chinese Visual Expression from the Beginning of the Twentieth Century to the Present Day 430
Multichannel rotary joints-How they work 400
Tip60 complex regulates eggshell formation and oviposition in the white-backed planthopper, providing effective targets for pest control 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3795743
求助须知:如何正确求助?哪些是违规求助? 3340790
关于积分的说明 10301851
捐赠科研通 3057307
什么是DOI,文献DOI怎么找? 1677625
邀请新用户注册赠送积分活动 805512
科研通“疑难数据库(出版商)”最低求助积分说明 762642