已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Make a Long Image Short: Adaptive Token Length for Vision Transformers

安全性令牌 计算机科学 变压器 推论 人工智能 图像处理 加速 计算机视觉 图像(数学) 并行计算 计算机网络 电压 物理 量子力学
作者
Qing Zhou,Yichen Zhu
出处
期刊:Lecture Notes in Computer Science 卷期号:: 69-85 被引量:1
标识
DOI:10.1007/978-3-031-43415-0_5
摘要

The vision transformer is a model that breaks down each image into a sequence of tokens with a fixed length and processes them similarly to words in natural language processing. Although increasing the number of tokens typically results in better performance, it also leads to a considerable increase in computational cost. Motivated by the saying “A picture is worth a thousand words,” we propose an innovative approach to accelerate the ViT model by shortening long images. Specifically, we introduce a method for adaptively assigning token length for each image at test time to accelerate inference speed. First, we train a Resizable-ViT (ReViT) model capable of processing input with diverse token lengths. Next, we extract token-length labels from ReViT that indicate the minimum number of tokens required to achieve accurate predictions. We then use these labels to train a lightweight Token-Length Assigner (TLA) that allocates the optimal token length for each image during inference. The TLA enables ReViT to process images with the minimum sufficient number of tokens, reducing token numbers in the ViT model and improving inference speed. Our approach is general and compatible with modern vision transformer architectures, significantly reducing computational costs. We verified the effectiveness of our methods on multiple representative ViT models on image classification and action recognition.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
Neuronguy完成签到,获得积分10
3秒前
彭于晏应助科研通管家采纳,获得10
4秒前
kedaya应助科研通管家采纳,获得10
4秒前
4秒前
领导范儿应助科研通管家采纳,获得10
4秒前
共享精神应助科研通管家采纳,获得10
4秒前
4秒前
sunny发布了新的文献求助200
6秒前
畅快之柔发布了新的文献求助10
7秒前
7秒前
9秒前
FFFFF发布了新的文献求助30
9秒前
活泼的番茄完成签到 ,获得积分10
10秒前
sxy完成签到,获得积分10
10秒前
小王发布了新的文献求助10
10秒前
dai发布了新的文献求助10
10秒前
共享精神应助独特灵采纳,获得10
13秒前
诸葛钢铁发布了新的文献求助10
13秒前
14秒前
畅快之柔完成签到,获得积分10
16秒前
吕博发布了新的文献求助10
19秒前
Jasper应助诸葛钢铁采纳,获得10
20秒前
sxy发布了新的文献求助30
21秒前
Jasper应助原野采纳,获得10
24秒前
24秒前
25秒前
26秒前
26秒前
清逸之风发布了新的文献求助10
28秒前
Xuuuurj发布了新的文献求助10
29秒前
wanbochen完成签到 ,获得积分10
34秒前
36秒前
41秒前
hxy发布了新的文献求助10
43秒前
48秒前
51秒前
52秒前
小蘑菇应助Xuuuurj采纳,获得10
53秒前
c138zyx完成签到,获得积分10
59秒前
高分求助中
Manual of Clinical Microbiology, 4 Volume Set (ASM Books) 13th Edition 1000
Teaching Social and Emotional Learning in Physical Education 900
The three stars each : the Astrolabes and related texts 550
Boris Pesce - Gli impiegati della Fiat dal 1955 al 1999 un percorso nella memoria 500
Chinese-English Translation Lexicon Version 3.0 500
少脉山油柑叶的化学成分研究 500
Recherches Ethnographiques sue les Yao dans la Chine du Sud 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2400070
求助须知:如何正确求助?哪些是违规求助? 2100772
关于积分的说明 5296409
捐赠科研通 1828480
什么是DOI,文献DOI怎么找? 911334
版权声明 560198
科研通“疑难数据库(出版商)”最低求助积分说明 487125