Fast and accurate protein function prediction from sequence through pretrained language model and homology-based label diffusion

计算机科学 蛋白质功能预测 源代码 人工智能 序列(生物学) 功能(生物学) 序列母题 蛋白质功能 联营 机器学习 计算生物学 数据挖掘 生物 程序设计语言 基因 遗传学
作者
Qianmu Yuan,Junjie Xie,Jiancong Xie,Huiying Zhao,Yuedong Yang
出处
期刊:Briefings in Bioinformatics [Oxford University Press]
卷期号:24 (3) 被引量:3
标识
DOI:10.1093/bib/bbad117
摘要

Protein function prediction is an essential task in bioinformatics which benefits disease mechanism elucidation and drug target discovery. Due to the explosive growth of proteins in sequence databases and the diversity of their functions, it remains challenging to fast and accurately predict protein functions from sequences alone. Although many methods have integrated protein structures, biological networks or literature information to improve performance, these extra features are often unavailable for most proteins. Here, we propose SPROF-GO, a Sequence-based alignment-free PROtein Function predictor, which leverages a pretrained language model to efficiently extract informative sequence embeddings and employs self-attention pooling to focus on important residues. The prediction is further advanced by exploiting the homology information and accounting for the overlapping communities of proteins with related functions through the label diffusion algorithm. SPROF-GO was shown to surpass state-of-the-art sequence-based and even network-based approaches by more than 14.5, 27.3 and 10.1% in area under the precision-recall curve on the three sub-ontology test sets, respectively. Our method was also demonstrated to generalize well on non-homologous proteins and unseen species. Finally, visualization based on the attention mechanism indicated that SPROF-GO is able to capture sequence domains useful for function prediction. The datasets, source codes and trained models of SPROF-GO are available at https://github.com/biomed-AI/SPROF-GO. The SPROF-GO web server is freely available at http://bio-web1.nscc-gz.cn/app/sprof-go.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
建议保存本图,每天支付宝扫一扫(相册选取)领红包
实时播报
1秒前
zzz完成签到 ,获得积分10
7秒前
韩韩发布了新的文献求助10
8秒前
vipggl完成签到 ,获得积分10
13秒前
17秒前
SCINEXUS发布了新的文献求助50
22秒前
Zhangfu完成签到,获得积分10
22秒前
乃惜完成签到,获得积分10
24秒前
熊泰山完成签到 ,获得积分10
24秒前
韩韩完成签到,获得积分10
26秒前
xiaoguang li完成签到,获得积分10
34秒前
kiki完成签到 ,获得积分10
40秒前
Noah完成签到 ,获得积分10
45秒前
Benhnhk21完成签到,获得积分10
1分钟前
DrCuiTianjin完成签到 ,获得积分10
1分钟前
糊糊完成签到 ,获得积分10
1分钟前
wysji完成签到,获得积分10
1分钟前
Fazie完成签到 ,获得积分10
1分钟前
1分钟前
Akim应助科研通管家采纳,获得10
1分钟前
liangm7完成签到 ,获得积分10
1分钟前
Di完成签到 ,获得积分10
1分钟前
宁夕完成签到 ,获得积分10
1分钟前
2分钟前
娜na完成签到 ,获得积分10
2分钟前
爆米花应助雪白觅海采纳,获得30
2分钟前
Alex-Song完成签到 ,获得积分0
2分钟前
XD824发布了新的文献求助10
2分钟前
海人完成签到 ,获得积分10
2分钟前
细腻的仙人掌完成签到,获得积分10
2分钟前
史小刀完成签到 ,获得积分10
2分钟前
雨雨雨雨雨文完成签到 ,获得积分10
2分钟前
dio完成签到 ,获得积分10
2分钟前
儒雅一凤完成签到 ,获得积分10
3分钟前
天天开心完成签到 ,获得积分10
3分钟前
orchid完成签到,获得积分10
3分钟前
3分钟前
Chenqzl完成签到 ,获得积分10
3分钟前
青松完成签到 ,获得积分10
3分钟前
kais完成签到 ,获得积分10
3分钟前
高分求助中
【重要提醒】机器人已修复,不用再驳回机器人应助了!! 20000
Teaching Social and Emotional Learning in Physical Education 1100
Multifunctionality Agriculture: A New Paradigm for European Agriculture and Rural Development 500
grouting procedures for ground source heat pump 500
Polyvinyl alcohol fibers 300
A Monograph of the Colubrid Snakes of the Genus Elaphe 300
An Annotated Checklist of Dinosaur Species by Continent 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2343375
求助须知:如何正确求助?哪些是违规求助? 2040736
关于积分的说明 5097279
捐赠科研通 1781002
什么是DOI,文献DOI怎么找? 890155
版权声明 556405
科研通“疑难数据库(出版商)”最低求助积分说明 474868