ESM-NBR: fast and accurate nucleic acid-binding residue prediction via protein language model feature representation and multi-task learning

计算机科学 人工智能 特征(语言学) 隐马尔可夫模型 机器学习 水准点(测量) 特征学习 生物学数据 特征提取 代表(政治) 模式识别(心理学) 判别式 生物信息学 生物 哲学 语言学 大地测量学 政治 政治学 法学 地理
作者
Wenwu Zeng,Dafeng Lv,Xuan Liu,Guo Chen,Wenjuan Liu,Shaoliang Peng
标识
DOI:10.1109/bibm58861.2023.10385509
摘要

Protein-nucleic acid interactions play a very important role in a variety of biological activities. Accurate identification of nucleic acid-binding residues is a critical step in understanding the interaction mechanisms. Although many computationally based methods have been developed to predict nucleic acid-binding residues, challenges remain. In this study, a fast and accurate sequence-based method, called ESM-NBR, is proposed. In ESM-NBR, we first use the large protein language model ESM2 to extract discriminative biological properties feature representation from protein primary sequences; then, a multi-task deep learning model composed of stacked bidirectional long short-term memory (BiLSTM) and multi-layer perceptron (MLP) networks is employed to explore common and private information of DNA- and RNA-binding residues with ESM2 feature as input. Experimental results on benchmark data sets demonstrate that the prediction performance of ESM2 feature representation comprehensively outperforms evolutionary information-based hidden Markov model (HMM) features. Meanwhile, the ESM-NBR obtains the MCC values for DNA-binding residues prediction of 0.427 and 0.391 on two independent test sets, which are 18.61 and 10.45% higher than those of the second-best methods, respectively. Moreover, by completely discarding the time-cost multiple sequence alignment process, the prediction speed of ESM-NBR far exceeds that of existing methods (5.52s for a protein sequence of length 500, which is about 16 times faster than the second-fastest method). A user-friendly standalone package and the data of ESM-NBR are freely available for academic use at: https://github.com/wwzll123/ESM-NBR.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
boss完成签到,获得积分10
2秒前
无限的千凝完成签到 ,获得积分10
3秒前
科研通AI5应助顺心柠檬采纳,获得10
4秒前
科研通AI5应助贺小刚采纳,获得10
5秒前
6秒前
毛毛虫发布了新的文献求助10
7秒前
jor666完成签到,获得积分10
8秒前
9秒前
zero灬给leolin的求助进行了留言
10秒前
Arthur完成签到 ,获得积分10
11秒前
12秒前
迅速云朵发布了新的文献求助10
13秒前
通不通la发布了新的文献求助10
14秒前
15秒前
AlwaysKim发布了新的文献求助10
19秒前
啊哈哈哈哈完成签到,获得积分10
22秒前
22秒前
我是老大应助NeuroYan采纳,获得50
23秒前
AlwaysKim完成签到,获得积分10
26秒前
sszz发布了新的文献求助10
27秒前
科研通AI5应助科研通管家采纳,获得10
30秒前
传奇3应助科研通管家采纳,获得10
30秒前
pluto应助科研通管家采纳,获得20
31秒前
科研通AI5应助AlwaysKim采纳,获得30
34秒前
靓丽的战斗机完成签到,获得积分10
35秒前
碧蓝的盼夏完成签到,获得积分10
37秒前
39秒前
生动的书蕾完成签到,获得积分10
40秒前
xRuri发布了新的文献求助10
42秒前
小杰完成签到 ,获得积分10
43秒前
44秒前
44秒前
情怀应助迅速云朵采纳,获得10
46秒前
开坦克的贝塔完成签到,获得积分10
47秒前
yuan发布了新的文献求助10
48秒前
49秒前
风趣秋白完成签到,获得积分10
52秒前
研友_8Y2DXL完成签到,获得积分10
52秒前
yoyo20012623发布了新的文献求助30
54秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Les Mantodea de Guyane Insecta, Polyneoptera 2500
Technologies supporting mass customization of apparel: A pilot project 450
Brain and Heart The Triumphs and Struggles of a Pediatric Neurosurgeon 400
Cybersecurity Blueprint – Transitioning to Tech 400
Mixing the elements of mass customisation 400
Периодизация спортивной тренировки. Общая теория и её практическое применение 310
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3783164
求助须知:如何正确求助?哪些是违规求助? 3328499
关于积分的说明 10236697
捐赠科研通 3043596
什么是DOI,文献DOI怎么找? 1670599
邀请新用户注册赠送积分活动 799766
科研通“疑难数据库(出版商)”最低求助积分说明 759119