Wave-ViT: Unifying Wavelet and Transformers for Visual Representation Learning

计算机科学 小波 联营 人工智能 变压器 分割 计算 失败 计算机视觉 理论计算机科学 算法 并行计算 量子力学 物理 电压
作者
Ting Yao,Yingwei Pan,Yehao Li,Chong‐Wah Ngo,Tao Mei
出处
期刊:Cornell University - arXiv 被引量:8
标识
DOI:10.48550/arxiv.2207.04978
摘要

Multi-scale Vision Transformer (ViT) has emerged as a powerful backbone for computer vision tasks, while the self-attention computation in Transformer scales quadratically w.r.t. the input patch number. Thus, existing solutions commonly employ down-sampling operations (e.g., average pooling) over keys/values to dramatically reduce the computational cost. In this work, we argue that such over-aggressive down-sampling design is not invertible and inevitably causes information dropping especially for high-frequency components in objects (e.g., texture details). Motivated by the wavelet theory, we construct a new Wavelet Vision Transformer (\textbf{Wave-ViT}) that formulates the invertible down-sampling with wavelet transforms and self-attention learning in a unified way. This proposal enables self-attention learning with lossless down-sampling over keys/values, facilitating the pursuing of a better efficiency-vs-accuracy trade-off. Furthermore, inverse wavelet transforms are leveraged to strengthen self-attention outputs by aggregating local contexts with enlarged receptive field. We validate the superiority of Wave-ViT through extensive experiments over multiple vision tasks (e.g., image recognition, object detection and instance segmentation). Its performances surpass state-of-the-art ViT backbones with comparable FLOPs. Source code is available at \url{https://github.com/YehLi/ImageNetModel}.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
笑傲江湖完成签到,获得积分10
12秒前
12秒前
好好学习完成签到,获得积分0
13秒前
zyw完成签到 ,获得积分10
16秒前
evermore发布了新的文献求助10
18秒前
huahua完成签到 ,获得积分10
21秒前
迅速的千风完成签到 ,获得积分10
25秒前
常常完成签到,获得积分10
26秒前
吕吕完成签到,获得积分10
28秒前
cquank完成签到,获得积分10
30秒前
路过完成签到,获得积分10
30秒前
小张完成签到,获得积分10
33秒前
Double_N完成签到,获得积分10
34秒前
shouyu29发布了新的文献求助10
36秒前
wmz完成签到 ,获得积分10
37秒前
37秒前
柠檬普洱茶完成签到,获得积分10
37秒前
caulif完成签到 ,获得积分10
39秒前
sheh发布了新的文献求助10
41秒前
世界完成签到,获得积分10
44秒前
木卫二完成签到 ,获得积分10
46秒前
整齐豆芽完成签到 ,获得积分10
47秒前
如愿常隐行完成签到 ,获得积分10
49秒前
sheh完成签到,获得积分20
49秒前
晴空万里完成签到 ,获得积分10
51秒前
Zn中毒完成签到,获得积分10
51秒前
无道则愚完成签到 ,获得积分10
53秒前
鲁卓林完成签到,获得积分10
55秒前
point1990完成签到,获得积分10
56秒前
peterlzb1234567完成签到,获得积分10
57秒前
小徐完成签到 ,获得积分10
58秒前
Sodagreen2023完成签到 ,获得积分10
58秒前
oc666888完成签到,获得积分10
58秒前
Vincent完成签到 ,获得积分10
1分钟前
猪猪完成签到,获得积分10
1分钟前
赤子心i完成签到 ,获得积分10
1分钟前
sll完成签到 ,获得积分10
1分钟前
CipherSage应助Wang采纳,获得10
1分钟前
落落完成签到 ,获得积分10
1分钟前
别拿暗恋当饭吃完成签到 ,获得积分10
1分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
晶种分解过程与铝酸钠溶液混合强度关系的探讨 8888
Chemistry and Physics of Carbon Volume 18 800
The Organometallic Chemistry of the Transition Metals 800
Leading Academic-Practice Partnerships in Nursing and Healthcare: A Paradigm for Change 800
The formation of Australian attitudes towards China, 1918-1941 640
Signals, Systems, and Signal Processing 610
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6427915
求助须知:如何正确求助?哪些是违规求助? 8244660
关于积分的说明 17528369
捐赠科研通 5483325
什么是DOI,文献DOI怎么找? 2895136
邀请新用户注册赠送积分活动 1871298
关于科研通互助平台的介绍 1710410