SP-ViT: Learning 2D Spatial Priors for Vision Transformers

归纳偏置 过度拟合 变压器 计算机科学 人工智能 先验概率 图像分辨率 机器学习 模式识别(心理学) 失败 多任务学习 贝叶斯概率 人工神经网络 任务(项目管理) 工程类 电压 并行计算 系统工程 电气工程
作者
Yuxuan Zhou,Wangmeng Xiang,Chao Li,Biao Wang,Xihan Wei,Lei Zhang,Margret Keuper,Xian‐Sheng Hua
出处
期刊:Cornell University - arXiv 被引量:2
标识
DOI:10.48550/arxiv.2206.07662
摘要

Recently, transformers have shown great potential in image classification and established state-of-the-art results on the ImageNet benchmark. However, compared to CNNs, transformers converge slowly and are prone to overfitting in low-data regimes due to the lack of spatial inductive biases. Such spatial inductive biases can be especially beneficial since the 2D structure of an input image is not well preserved in transformers. In this work, we present Spatial Prior-enhanced Self-Attention (SP-SA), a novel variant of vanilla Self-Attention (SA) tailored for vision transformers. Spatial Priors (SPs) are our proposed family of inductive biases that highlight certain groups of spatial relations. Unlike convolutional inductive biases, which are forced to focus exclusively on hard-coded local regions, our proposed SPs are learned by the model itself and take a variety of spatial relations into account. Specifically, the attention score is calculated with emphasis on certain kinds of spatial relations at each head, and such learned spatial foci can be complementary to each other. Based on SP-SA we propose the SP-ViT family, which consistently outperforms other ViT models with similar GFlops or parameters. Our largest model SP-ViT-L achieves a record-breaking 86.3% Top-1 accuracy with a reduction in the number of parameters by almost 50% compared to previous state-of-the-art model (150M for SP-ViT-L vs 271M for CaiT-M-36) among all ImageNet-1K models trained on 224x224 and fine-tuned on 384x384 resolution w/o extra data.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
维克托完成签到 ,获得积分10
刚刚
1秒前
labordoc完成签到,获得积分10
1秒前
科研通AI5应助完美的妙芹采纳,获得150
1秒前
Whim完成签到,获得积分0
1秒前
2秒前
车剑锋完成签到,获得积分10
2秒前
淡然紫蓝发布了新的文献求助30
2秒前
jjgbmt完成签到 ,获得积分10
3秒前
麦子完成签到 ,获得积分10
4秒前
4秒前
sheep完成签到,获得积分10
4秒前
uuu发布了新的文献求助10
4秒前
迅速金鱼完成签到,获得积分10
5秒前
哆啦梦发布了新的文献求助10
5秒前
张小斌完成签到,获得积分10
6秒前
ES完成签到 ,获得积分0
6秒前
半斤完成签到 ,获得积分10
6秒前
7秒前
独自受罪完成签到 ,获得积分10
7秒前
李长吉发布了新的文献求助10
7秒前
9秒前
9秒前
雪山飞龙发布了新的文献求助10
9秒前
宝贝完成签到,获得积分10
9秒前
无畏完成签到 ,获得积分10
9秒前
gfr123完成签到,获得积分10
10秒前
polaris完成签到 ,获得积分10
10秒前
马铃薯完成签到,获得积分10
11秒前
苹果萧完成签到 ,获得积分10
11秒前
含糊的泥猴桃完成签到 ,获得积分10
11秒前
饿哭了塞完成签到 ,获得积分10
12秒前
Cxyyyl完成签到,获得积分10
13秒前
Starry完成签到 ,获得积分10
13秒前
祯果粒完成签到,获得积分10
14秒前
ShirlynTse完成签到,获得积分10
14秒前
14秒前
李长吉完成签到,获得积分10
14秒前
顾海东完成签到,获得积分10
15秒前
Monica发布了新的文献求助10
15秒前
高分求助中
Technologies supporting mass customization of apparel: A pilot project 600
Chinesen in Europa – Europäer in China: Journalisten, Spione, Studenten 500
Arthur Ewert: A Life for the Comintern 500
China's Relations With Japan 1945-83: The Role of Liao Chengzhi // Kurt Werner Radtke 500
Two Years in Peking 1965-1966: Book 1: Living and Teaching in Mao's China // Reginald Hunt 500
Epigenetic Drug Discovery 500
Pathology of Laboratory Rodents and Rabbits (5th Edition) 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3816035
求助须知:如何正确求助?哪些是违规求助? 3359486
关于积分的说明 10403177
捐赠科研通 3077391
什么是DOI,文献DOI怎么找? 1690292
邀请新用户注册赠送积分活动 813716
科研通“疑难数据库(出版商)”最低求助积分说明 767759