RMT: Retentive Networks Meet Vision Transformers

计算机科学 人工智能 分割 先验概率 空间分析 矩阵分解 计算机视觉 模式识别(心理学) 数学 物理 量子力学 贝叶斯概率 统计 特征向量
作者
Qihang Fan,Huaibo Huang,Mingrui Chen,Hong‐Min Liu,Ran He
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2309.11523
摘要

Vision Transformer (ViT) has gained increasing attention in the computer vision community in recent years. However, the core component of ViT, Self-Attention, lacks explicit spatial priors and bears a quadratic computational complexity, thereby constraining the applicability of ViT. To alleviate these issues, we draw inspiration from the recent Retentive Network (RetNet) in the field of NLP, and propose RMT, a strong vision backbone with explicit spatial prior for general purposes. Specifically, we extend the RetNet's temporal decay mechanism to the spatial domain, and propose a spatial decay matrix based on the Manhattan distance to introduce the explicit spatial prior to Self-Attention. Additionally, an attention decomposition form that adeptly adapts to explicit spatial prior is proposed, aiming to reduce the computational burden of modeling global information without disrupting the spatial decay matrix. Based on the spatial decay matrix and the attention decomposition form, we can flexibly integrate explicit spatial prior into the vision backbone with linear complexity. Extensive experiments demonstrate that RMT exhibits exceptional performance across various vision tasks. Specifically, without extra training data, RMT achieves **84.8%** and **86.1%** top-1 acc on ImageNet-1k with **27M/4.5GFLOPs** and **96M/18.2GFLOPs**. For downstream tasks, RMT achieves **54.5** box AP and **47.2** mask AP on the COCO detection task, and **52.8** mIoU on the ADE20K semantic segmentation task. Code is available at https://github.com/qhfan/RMT

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
pera完成签到,获得积分10
1秒前
liyang999完成签到 ,获得积分10
2秒前
今后应助呆呆小猪采纳,获得10
2秒前
manchang完成签到 ,获得积分10
4秒前
苹果煎饼完成签到 ,获得积分10
5秒前
Liang完成签到,获得积分10
6秒前
好好好完成签到,获得积分10
6秒前
10秒前
12秒前
12秒前
nyddyy发布了新的文献求助10
16秒前
慧19960418发布了新的文献求助10
18秒前
林晓筱发布了新的文献求助10
19秒前
林一发布了新的文献求助10
20秒前
无花果应助崴Jio辣子面采纳,获得10
21秒前
烟花应助慧19960418采纳,获得10
23秒前
王福贵儿完成签到,获得积分10
24秒前
高兴静枫完成签到,获得积分10
32秒前
32秒前
粥粥完成签到 ,获得积分10
36秒前
米儿发布了新的文献求助30
36秒前
万能图书馆应助luqqq采纳,获得10
38秒前
40秒前
CipherSage应助皮鲂采纳,获得10
41秒前
落枫完成签到,获得积分10
44秒前
44秒前
林晓筱完成签到,获得积分10
45秒前
落枫发布了新的文献求助10
47秒前
猩心完成签到 ,获得积分10
49秒前
gogo完成签到 ,获得积分10
49秒前
49秒前
123完成签到 ,获得积分10
49秒前
水丰完成签到,获得积分10
53秒前
阿泽完成签到,获得积分10
54秒前
YHF2完成签到,获得积分10
57秒前
JamesPei应助JackLL采纳,获得10
59秒前
1分钟前
轨迹举报黯黑の夜求助涉嫌违规
1分钟前
1分钟前
威武妙芹完成签到,获得积分20
1分钟前
高分求助中
请在求助之前详细阅读求助说明!!!! 20000
Sphäroguß als Werkstoff für Behälter zur Beförderung, Zwischen- und Endlagerung radioaktiver Stoffe - Untersuchung zu alternativen Eignungsnachweisen: Zusammenfassender Abschlußbericht 1500
One Man Talking: Selected Essays of Shao Xunmei, 1929–1939 1000
Yuwu Song, Biographical Dictionary of the People's Republic of China 700
[Lambert-Eaton syndrome without calcium channel autoantibodies] 520
The Three Stars Each: The Astrolabes and Related Texts 500
india-NATO Dialogue: Addressing International Security and Regional Challenges 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2469874
求助须知:如何正确求助?哪些是违规求助? 2136990
关于积分的说明 5445019
捐赠科研通 1861323
什么是DOI,文献DOI怎么找? 925714
版权声明 562721
科研通“疑难数据库(出版商)”最低求助积分说明 495151