A survey of techniques for optimizing transformer inference

计算机科学 变压器 推论 人工神经网络 机器学习 人工智能 编码器 计算机工程 计算机体系结构 电气工程 电压 操作系统 工程类
作者
Krishna Teja Chitty-Venkata,Sparsh Mittal,Murali Emani,Venkatram Vishwanath,Arun K. Somani
出处
期刊:Journal of Systems Architecture [Elsevier]
卷期号:144: 102990-102990
标识
DOI:10.1016/j.sysarc.2023.102990
摘要

Recent years have seen a phenomenal rise in the performance and applications of transformer neural networks. The family of transformer networks, including Bidirectional Encoder Representations from Transformer (BERT), Generative Pretrained Transformer (GPT) and Vision Transformer (ViT), have shown their effectiveness across Natural Language Processing (NLP) and Computer Vision (CV) domains. Transformer-based networks such as ChatGPT have impacted the lives of common men. However, the quest for high predictive performance has led to an exponential increase in transformers’ memory and compute footprint. Researchers have proposed techniques to optimize transformer inference at all levels of abstraction. This paper presents a comprehensive survey of techniques for optimizing the inference phase of transformer networks. We survey techniques such as knowledge distillation, pruning, quantization, neural architecture search and lightweight network design at the algorithmic level. We further review hardware-level optimization techniques and the design of novel hardware accelerators for transformers. We summarize the quantitative results on the number of parameters/FLOPs and the accuracy of several models/techniques to showcase the tradeoff exercised by them. We also outline future directions in this rapidly evolving field of research. We believe that this survey will educate both novice and seasoned researchers and also spark a plethora of research efforts in this field.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
在水一方应助我很厉害的采纳,获得10
刚刚
Lucas应助汪123采纳,获得10
1秒前
舒适的晓山完成签到,获得积分10
1秒前
赫奇帕奇小麻瓜完成签到,获得积分10
1秒前
olivia发布了新的文献求助10
3秒前
3秒前
瓜王完成签到,获得积分10
3秒前
zhuxiansheng完成签到,获得积分10
3秒前
4秒前
Singularity举报xxxr求助涉嫌违规
5秒前
5秒前
5秒前
7秒前
孙永胜发布了新的文献求助10
8秒前
9秒前
9秒前
冯树发布了新的文献求助10
12秒前
张33333完成签到,获得积分10
12秒前
慕青应助枫叶的脚步采纳,获得10
13秒前
fransiccarey完成签到,获得积分10
13秒前
13秒前
15秒前
hai完成签到,获得积分10
15秒前
丘比特应助科研执修采纳,获得10
17秒前
孙永胜完成签到,获得积分10
18秒前
张33333发布了新的文献求助10
19秒前
20秒前
20秒前
Singularity举报qing1245求助涉嫌违规
21秒前
22秒前
23秒前
冯树完成签到,获得积分10
23秒前
我很厉害的完成签到,获得积分10
24秒前
hhh发布了新的文献求助50
25秒前
27秒前
31秒前
Ftucyctucutct完成签到,获得积分10
32秒前
34秒前
新世界科研虫完成签到,获得积分10
34秒前
雁过完成签到 ,获得积分10
36秒前
高分求助中
Un calendrier babylonien des travaux, des signes et des mois: Séries iqqur îpuš 1036
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 1000
Heterocyclic Stilbene and Bibenzyl Derivatives in Liverworts: Distribution, Structures, Total Synthesis and Biological Activity 500
重庆市新能源汽车产业大数据招商指南(两链两图两池两库两平台两清单两报告) 400
Division and square root. Digit-recurrence algorithms and implementations 400
行動データの計算論モデリング 強化学習モデルを例として 400
Offline version of the Proceedings of 15th EWTEC 2023, Bilbao 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2543112
求助须知:如何正确求助?哪些是违规求助? 2174675
关于积分的说明 5596365
捐赠科研通 1895389
什么是DOI,文献DOI怎么找? 945362
版权声明 565296
科研通“疑难数据库(出版商)”最低求助积分说明 503354