Clustering predicted structures at the scale of the known protein universe

聚类分析 结构相似性 计算生物学 相似性(几何) 蛋白质结构数据库 蛋白质数据库的结构分类 蛋白质结构域 星团(航天器) 计算机科学 蛋白质家族 功能(生物学) 蛋白质结构 生物 进化生物学 基因 人工智能 遗传学 序列数据库 图像(数学) 生物化学 程序设计语言
作者
Inigo Barrio‐Hernandez,Jingi Yeo,Jürgen Jänes,Milot Mirdita,Cameron L. M. Gilchrist,Tanita Wein,Mihály Váradi,Sameer Velankar,Pedro Beltrão,Martin Steinegger
出处
期刊:Nature [Nature Portfolio]
卷期号:622 (7983): 637-645 被引量:170
标识
DOI:10.1038/s41586-023-06510-w
摘要

Proteins are key to all cellular processes and their structure is important in understanding their function and evolution. Sequence-based predictions of protein structures have increased in accuracy1, and over 214 million predicted structures are available in the AlphaFold database2. However, studying protein structures at this scale requires highly efficient methods. Here, we developed a structural-alignment-based clustering algorithm-Foldseek cluster-that can cluster hundreds of millions of structures. Using this method, we have clustered all of the structures in the AlphaFold database, identifying 2.30 million non-singleton structural clusters, of which 31% lack annotations representing probable previously undescribed structures. Clusters without annotation tend to have few representatives covering only 4% of all proteins in the AlphaFold database. Evolutionary analysis suggests that most clusters are ancient in origin but 4% seem to be species specific, representing lower-quality predictions or examples of de novo gene birth. We also show how structural comparisons can be used to predict domain families and their relationships, identifying examples of remote structural similarity. On the basis of these analyses, we identify several examples of human immune-related proteins with putative remote homology in prokaryotic species, illustrating the value of this resource for studying protein function and evolution across the tree of life.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
开放灭绝完成签到,获得积分10
刚刚
刚刚
HZN完成签到,获得积分10
1秒前
深情安青应助忧心的板栗采纳,获得10
1秒前
Awako发布了新的文献求助10
5秒前
小斌发布了新的文献求助10
5秒前
HY发布了新的文献求助10
5秒前
搜集达人应助zjw采纳,获得10
6秒前
Ava应助SireTD采纳,获得10
6秒前
顾矜应助笑点低访天采纳,获得10
7秒前
无极微光应助心语采纳,获得20
9秒前
寒冷不言应助借过123采纳,获得50
11秒前
闷油瓶发布了新的文献求助10
13秒前
14秒前
万能图书馆应助可靠微笑采纳,获得10
14秒前
14秒前
14秒前
小路完成签到 ,获得积分10
15秒前
Lucas应助实习医生小李采纳,获得10
15秒前
玩命的小虾米完成签到 ,获得积分10
15秒前
钱子默完成签到,获得积分10
16秒前
缓慢思枫发布了新的文献求助10
16秒前
16秒前
中岛悠斗完成签到,获得积分10
16秒前
科研通AI6.1应助yjt采纳,获得10
17秒前
升龙击完成签到,获得积分10
19秒前
gb033完成签到,获得积分10
19秒前
harry发布了新的文献求助10
20秒前
zjw发布了新的文献求助10
20秒前
YSL发布了新的文献求助10
21秒前
科研通AI6.4应助roomvinli采纳,获得100
21秒前
甜美凡霜完成签到,获得积分10
22秒前
懵懂的道罡完成签到,获得积分10
22秒前
木棉完成签到,获得积分10
22秒前
flora发布了新的文献求助10
23秒前
23秒前
23秒前
NexusExplorer应助小斌采纳,获得10
24秒前
疯狂的枫叶完成签到,获得积分10
24秒前
辉仔完成签到,获得积分10
25秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Graphene Handbook (2019 Edition) 800
Signals, Systems, and Signal Processing 610
IEST-RP-CC018: Cleanroom Cleaning and Sanitization: Operating and Monitoring Procedures 600
Fundamentals of Pharmaceutical and Biologics Regulations: A Global Perspective, Second Edition 600
Rehabilitation of Long-Standing Groin Pain in Athletes: A Scoping Review of Exercise Content and Reporting 500
The Immune System (Fifth Edition) 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6581129
求助须知:如何正确求助?哪些是违规求助? 8356257
关于积分的说明 17896413
捐赠科研通 5719860
什么是DOI,文献DOI怎么找? 2948155
邀请新用户注册赠送积分活动 1923811
关于科研通互助平台的介绍 1807857