Using deep learning to annotate the protein universe

注释 蛋白质组 蛋白质功能 功能(生物学) 计算机科学 计算生物学 水准点(测量) 蛋白质功能预测 蛋白质测序 人工智能 生物 机器学习 深度学习 生物信息学 肽序列 遗传学 基因 地理 大地测量学
作者
Maxwell L. Bileschi,David Belanger,Drew Bryant,Theo Sanderson,Brandon Carter,D. Sculley,Alex Bateman,Mark A. DePristo,Lucy J. Colwell
出处
期刊:Nature Biotechnology [Nature Portfolio]
卷期号:40 (6): 932-937 被引量:227
标识
DOI:10.1038/s41587-021-01179-w
摘要

Understanding the relationship between amino acid sequence and protein function is a long-standing challenge with far-reaching scientific and translational implications. State-of-the-art alignment-based techniques cannot predict function for one-third of microbial protein sequences, hampering our ability to exploit data from diverse organisms. Here, we train deep learning models to accurately predict functional annotations for unaligned amino acid sequences across rigorous benchmark assessments built from the 17,929 families of the protein families database Pfam. The models infer known patterns of evolutionary substitutions and learn representations that accurately cluster sequences from unseen families. Combining deep models with existing methods significantly improves remote homology detection, suggesting that the deep models learn complementary information. This approach extends the coverage of Pfam by >9.5%, exceeding additions made over the last decade, and predicts function for 360 human reference proteome proteins with no previous Pfam annotation. These results suggest that deep learning models will be a core component of future protein annotation tools. A deep learning model predicts protein functional annotations for unaligned amino acid sequences.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
盛芳完成签到 ,获得积分10
1秒前
blue发布了新的文献求助20
1秒前
gjj发布了新的文献求助30
2秒前
3秒前
4秒前
天堂之光完成签到,获得积分10
4秒前
东木应助wz采纳,获得30
6秒前
小蘑菇应助zhangqi采纳,获得10
7秒前
难过如音发布了新的文献求助10
7秒前
ABCDE发布了新的文献求助10
9秒前
9秒前
俭朴水彤发布了新的文献求助10
12秒前
13秒前
14秒前
15秒前
只想退休的牛油果完成签到,获得积分10
15秒前
15秒前
老狗子完成签到,获得积分10
17秒前
L77完成签到,获得积分0
17秒前
18秒前
Archie完成签到 ,获得积分10
20秒前
大模型应助英俊的胜采纳,获得10
20秒前
铭心发布了新的文献求助10
20秒前
Jasper应助柠檬zky采纳,获得10
22秒前
zlh发布了新的文献求助10
22秒前
小样完成签到,获得积分10
22秒前
HE发布了新的文献求助10
23秒前
铭心完成签到,获得积分10
25秒前
26秒前
28秒前
CodeCraft应助难过如音采纳,获得10
28秒前
老狗子发布了新的文献求助10
30秒前
31秒前
32秒前
HZQ应助一亩蔬菜采纳,获得50
32秒前
32秒前
不想干活应助朴树朋友采纳,获得10
33秒前
aabb发布了新的文献求助10
34秒前
俭朴水彤完成签到,获得积分10
35秒前
wukebini完成签到,获得积分10
36秒前
高分求助中
(禁止应助)【重要!!请各位详细阅读】【科研通的精品贴汇总】 10000
Semantics for Latin: An Introduction 1099
Robot-supported joining of reinforcement textiles with one-sided sewing heads 780
水稻光合CO2浓缩机制的创建及其作用研究 500
Logical form: From GB to Minimalism 500
2025-2030年中国消毒剂行业市场分析及发展前景预测报告 500
镇江南郊八公洞林区鸟类生态位研究 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4165781
求助须知:如何正确求助?哪些是违规求助? 3701415
关于积分的说明 11685795
捐赠科研通 3390100
什么是DOI,文献DOI怎么找? 1859214
邀请新用户注册赠送积分活动 919574
科研通“疑难数据库(出版商)”最低求助积分说明 832228