Exploiting protein language models for the precise classification of ion channels and ion transporters

稳健性(进化) 计算机科学 随机森林 一般化 人工智能 机器学习 生物 数学 数学分析 生物化学 基因
作者
Hamed Ghazikhani,Gregory Butler
出处
期刊:Proteins [Wiley]
卷期号:92 (8): 998-1055 被引量:4
标识
DOI:10.1002/prot.26694
摘要

Abstract This study introduces TooT‐PLM‐ionCT, a comprehensive framework that consolidates three distinct systems, each meticulously tailored for one of the following tasks: distinguishing ion channels (ICs) from membrane proteins (MPs), segregating ion transporters (ITs) from MPs, and differentiating ICs from ITs. Drawing upon the strengths of six Protein Language Models (PLMs)—ProtBERT, ProtBERT‐BFD, ESM‐1b, ESM‐2 (650M parameters), and ESM‐2 (15B parameters), TooT‐PLM‐ionCT employs a combination of traditional classifiers and deep learning models for nuanced protein classification. Originally validated on an existing dataset by previous researchers, our systems demonstrated superior performance in identifying ITs from MPs and distinguishing ICs from ITs, with the IC‐MP discrimination achieving state‐of‐the‐art results. In light of recommendations for additional validation, we introduced a new dataset, significantly enhancing the robustness and generalization of our models across bioinformatics challenges. This new evaluation underscored the effectiveness of TooT‐PLM‐ionCT in adapting to novel data while maintaining high classification accuracy. Furthermore, this study explores critical factors affecting classification accuracy, such as dataset balancing, the impact of using frozen versus fine‐tuned PLM representations, and the variance between half and full precision in floating‐point computations. To facilitate broader application and accessibility, a web server ( https://tootsuite.encs.concordia.ca/service/TooT-PLM-ionCT ) has been developed, allowing users to evaluate unknown protein sequences through our specialized systems for IC‐MP, IT‐MP, and IC‐IT classification tasks.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
刚刚
在水一方应助plant采纳,获得10
1秒前
chali48完成签到 ,获得积分10
2秒前
july13应助hhhh6666采纳,获得10
2秒前
金洋铭完成签到,获得积分20
3秒前
Laurel发布了新的文献求助30
4秒前
5秒前
5秒前
10秒前
芬芬发布了新的文献求助10
11秒前
陈三水发布了新的文献求助10
11秒前
12秒前
dnmd发布了新的文献求助10
15秒前
16秒前
plant发布了新的文献求助10
16秒前
李健应助小巧晓夏采纳,获得20
17秒前
19秒前
19秒前
21秒前
shuai发布了新的文献求助10
22秒前
24秒前
北风发布了新的文献求助10
24秒前
小巧晓夏完成签到,获得积分10
25秒前
26秒前
Yy完成签到 ,获得积分10
27秒前
30秒前
小巧晓夏发布了新的文献求助20
30秒前
千程完成签到,获得积分20
31秒前
32秒前
Luxuehua发布了新的文献求助30
36秒前
pluto应助金洋铭采纳,获得10
36秒前
TheWitness发布了新的文献求助10
37秒前
脆脆鲨鱼完成签到,获得积分10
39秒前
40秒前
雷鸣惊动完成签到,获得积分10
40秒前
Yz完成签到 ,获得积分10
43秒前
43秒前
酷波er应助北风采纳,获得10
44秒前
home完成签到,获得积分10
45秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Les Mantodea de Guyane Insecta, Polyneoptera 2500
Computational Atomic Physics for Kilonova Ejecta and Astrophysical Plasmas 500
Technologies supporting mass customization of apparel: A pilot project 450
Mixing the elements of mass customisation 360
Периодизация спортивной тренировки. Общая теория и её практическое применение 310
the MD Anderson Surgical Oncology Manual, Seventh Edition 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3781947
求助须知:如何正确求助?哪些是违规求助? 3327486
关于积分的说明 10231635
捐赠科研通 3042414
什么是DOI,文献DOI怎么找? 1669975
邀请新用户注册赠送积分活动 799461
科研通“疑难数据库(出版商)”最低求助积分说明 758822