Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

计算机科学 变压器 建筑 人工智能 理论计算机科学 机器学习 工程类 艺术 电压 电气工程 视觉艺术
作者
Zizhao Zhang,Han Zhang,Long Zhao,Ting Chen,Sercan Ö. Arık,Tomas Pfister
出处
期刊:Proceedings of the ... AAAI Conference on Artificial Intelligence [Association for the Advancement of Artificial Intelligence (AAAI)]
卷期号:36 (3): 3417-3425 被引量:40
标识
DOI:10.1609/aaai.v36i3.20252
摘要

Hierarchical structures are popular in recent vision transformers, however, they require sophisticated designs and massive datasets to work well. In this paper, we explore the idea of nesting basic local transformers on non-overlapping image blocks and aggregating them in a hierarchical way. We find that the block aggregation function plays a critical role in enabling cross-block non-local information communication. This observation leads us to design a simplified architecture that requires minor code changes upon the original vision transformer. The benefits of the proposed judiciously-selected design are threefold: (1) NesT converges faster and requires much less training data to achieve good generalization on both ImageNet and small datasets like CIFAR; (2) when extending our key ideas to image generation, NesT leads to a strong decoder that is 8 times faster than previous transformer-based generators; and (3) we show that decoupling the feature learning and abstraction processes via this nested hierarchy in our design enables constructing a novel method (named GradCAT) for visually interpreting the learned model. Source code is available https://github.com/google-research/nested-transformer.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
李言发布了新的文献求助10
4秒前
张小斌完成签到,获得积分20
6秒前
虞无声发布了新的文献求助10
8秒前
想人陪的海云完成签到 ,获得积分10
12秒前
doctorhyh完成签到,获得积分10
13秒前
19秒前
法外狂徒张三完成签到 ,获得积分10
23秒前
yml发布了新的文献求助10
25秒前
上官若男应助南0418采纳,获得10
27秒前
润华完成签到 ,获得积分10
29秒前
现实的书芹完成签到,获得积分10
34秒前
小微完成签到,获得积分20
36秒前
36秒前
36秒前
39秒前
40秒前
43秒前
南0418发布了新的文献求助10
43秒前
43秒前
45秒前
cty完成签到,获得积分10
49秒前
daguan完成签到,获得积分10
51秒前
54秒前
小微发布了新的文献求助10
56秒前
新用户完成签到,获得积分10
1分钟前
lienafeihu完成签到 ,获得积分10
1分钟前
牛太虚完成签到,获得积分10
1分钟前
1分钟前
文静振家完成签到,获得积分10
1分钟前
CipherSage应助科研通管家采纳,获得10
1分钟前
NexusExplorer应助科研通管家采纳,获得10
1分钟前
爆炸小耘发布了新的文献求助10
1分钟前
Believe应助科研通管家采纳,获得10
1分钟前
酷波er应助科研通管家采纳,获得10
1分钟前
wanci应助科研通管家采纳,获得10
1分钟前
CodeCraft应助wenyi采纳,获得10
1分钟前
赘婿应助魂不守舍的太阳采纳,获得10
1分钟前
爆炸小耘完成签到,获得积分10
1分钟前
1分钟前
大模型应助农大彭于晏采纳,获得10
1分钟前
高分求助中
请在求助之前详细阅读求助说明!!!! 20000
One Man Talking: Selected Essays of Shao Xunmei, 1929–1939 1000
The Three Stars Each: The Astrolabes and Related Texts 900
Yuwu Song, Biographical Dictionary of the People's Republic of China 700
[Lambert-Eaton syndrome without calcium channel autoantibodies] 520
Bernd Ziesemer - Maos deutscher Topagent: Wie China die Bundesrepublik eroberte 500
A radiographic standard of reference for the growing knee 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2471562
求助须知:如何正确求助?哪些是违规求助? 2138113
关于积分的说明 5448377
捐赠科研通 1862072
什么是DOI,文献DOI怎么找? 926040
版权声明 562747
科研通“疑难数据库(出版商)”最低求助积分说明 495308