Convolutions are competitive with transformers for protein sequence pretraining

变压器 计算机科学 语言模型 卷积神经网络 序列标记 人工智能 序列(生物学) 机器学习 任务(项目管理) 电压 工程类 生物 遗传学 电气工程 系统工程
作者
Kevin Yang,Nicoló Fusi,Alex X. Lu
标识
DOI:10.1101/2022.05.19.492714
摘要

Abstract Pretrained protein sequence language models have been shown to improve the performance of many prediction tasks, and are now routinely integrated into bioinformatics tools. However, these models largely rely on the Transformer architecture, which scales quadratically with sequence length in both run-time and memory. Therefore, state-of-the-art models have limitations on sequence length. To address this limitation, we investigated if convolutional neural network (CNN) architectures, which scale linearly with sequence length, could be as effective as transformers in protein language models. With masked language model pretraining, CNNs are competitive to and occasionally superior to Transformers across downstream applications while maintaining strong performance on sequences longer than those allowed in the current state-of-the-art Transformer models. Our work suggests that computational efficiency can be improved without sacrificing performance simply by using a CNN architecture instead of a Transformer, and emphasizes the importance of disentangling pretraining task and model architecture.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
仙女完成签到 ,获得积分10
5秒前
6秒前
夏姬宁静完成签到,获得积分10
8秒前
情怀应助NTz采纳,获得10
12秒前
无奈醉柳完成签到 ,获得积分10
15秒前
WWL完成签到 ,获得积分10
16秒前
安风完成签到 ,获得积分10
17秒前
Benjamin完成签到 ,获得积分0
18秒前
wweiweili完成签到 ,获得积分10
25秒前
天才FF完成签到,获得积分10
27秒前
阿胡完成签到 ,获得积分10
36秒前
cdercder应助Da You采纳,获得10
42秒前
可爱的函函应助张学友采纳,获得10
43秒前
QAQSS完成签到 ,获得积分10
43秒前
哈哈完成签到 ,获得积分10
46秒前
11完成签到 ,获得积分10
47秒前
spoon文完成签到 ,获得积分10
47秒前
48秒前
NTz完成签到,获得积分20
49秒前
hcdb完成签到,获得积分10
51秒前
alongi3完成签到,获得积分10
53秒前
NTz发布了新的文献求助10
53秒前
plz94完成签到 ,获得积分10
54秒前
charleslam完成签到,获得积分10
54秒前
54秒前
54秒前
55秒前
白夜行不起完成签到 ,获得积分10
55秒前
56秒前
宁安完成签到 ,获得积分10
57秒前
尊敬的夏槐完成签到,获得积分10
58秒前
慧慧34完成签到 ,获得积分10
59秒前
alongi3发布了新的文献求助10
1分钟前
cliff139完成签到,获得积分10
1分钟前
chen完成签到 ,获得积分10
1分钟前
小亮完成签到,获得积分10
1分钟前
zzj512682701完成签到,获得积分10
1分钟前
nicheng完成签到 ,获得积分0
1分钟前
小羊完成签到,获得积分0
1分钟前
drtianyunhong完成签到,获得积分10
1分钟前
高分求助中
Adhesion Science: Principles & Practice 1234
Signals, Systems, and Signal Processing 610
Burger's Medicinal Chemistry and Drug Discovery 400
A Step-by-Step Guide to Qualitative Data Coding 2nd Edition 400
Impact of Storage Orientation and Duration on Prefilled Syringe Performance: Break-Loose and Glide Forces, and Injection Time Across Multiple Time Points 360
Programming for Chemical Engineers Using C, C++, and MATLAB 300
Upland Kenya wild flowers and ferns: a flora of the flowers, ferns, grasses, and sedges of highland Kenya 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6663032
求助须知:如何正确求助?哪些是违规求助? 8413090
关于积分的说明 17984387
捐赠科研通 5866946
什么是DOI,文献DOI怎么找? 2974950
邀请新用户注册赠送积分活动 1950864
关于科研通互助平台的介绍 1876592