亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Transfer learning in proteins: evaluating novel protein learned representations for bioinformatics tasks

水准点(测量) 计算机科学 蛋白质功能预测 机器学习 代表(政治) 人工智能 相似性(几何) 蛋白质测序 蛋白质法 任务(项目管理) 集合(抽象数据类型) 特征学习 编码 嵌入 特征向量 结构生物信息学 序列(生物学) 蛋白质功能 蛋白质结构 序列分析 肽序列 生物 图像(数学) 基因 政治 经济 管理 程序设计语言 法学 地理 生物化学 遗传学 政治学 大地测量学
作者
Emilio Fenoy,Alejando A Edera,Georgina Stegmayer
出处
期刊:Briefings in Bioinformatics [Oxford University Press]
卷期号:23 (4) 被引量:4
标识
DOI:10.1093/bib/bbac232
摘要

A representation method is an algorithm that calculates numerical feature vectors for samples in a dataset. Such vectors, also known as embeddings, define a relatively low-dimensional space able to efficiently encode high-dimensional data. Very recently, many types of learned data representations based on machine learning have appeared and are being applied to several tasks in bioinformatics. In particular, protein representation learning methods integrate different types of protein information (sequence, domains, etc.), in supervised or unsupervised learning approaches, and provide embeddings of protein sequences that can be used for downstream tasks. One task that is of special interest is the automatic function prediction of the huge number of novel proteins that are being discovered nowadays and are still totally uncharacterized. However, despite its importance, up to date there is not a fair benchmark study of the predictive performance of existing proposals on the same large set of proteins and for very concrete and common bioinformatics tasks. Therefore, this lack of benchmark studies prevent the community from using adequate predictive methods for accelerating the functional characterization of proteins. In this study, we performed a detailed comparison of protein sequence representation learning methods, explaining each approach and comparing them with an experimental benchmark on several bioinformatics tasks: (i) determining protein sequence similarity in the embedding space; (ii) inferring protein domains and (iii) predicting ontology-based protein functions. We examine the advantages and disadvantages of each representation approach over the benchmark results. We hope the results and the discussion of this study can help the community to select the most adequate machine learning-based technique for protein representation according to the bioinformatics task at hand.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
cheeries完成签到 ,获得积分10
刚刚
HH完成签到 ,获得积分10
2秒前
无奈安寒发布了新的文献求助10
2秒前
Ava应助科研通管家采纳,获得10
6秒前
共享精神应助科研通管家采纳,获得10
6秒前
辰12完成签到 ,获得积分10
8秒前
专注乐巧完成签到 ,获得积分10
10秒前
丘比特应助失眠冰海采纳,获得10
23秒前
36秒前
balabala发布了新的文献求助10
41秒前
等于零完成签到 ,获得积分10
42秒前
手术刀完成签到 ,获得积分10
45秒前
gxmu6322完成签到,获得积分10
49秒前
54秒前
54秒前
luck完成签到,获得积分10
58秒前
59秒前
luck发布了新的文献求助10
1分钟前
xiaoxinbaba发布了新的文献求助10
1分钟前
CipherSage应助与岛采纳,获得10
1分钟前
小华完成签到 ,获得积分10
1分钟前
欣喜的人龙完成签到 ,获得积分10
1分钟前
一只鱼完成签到 ,获得积分10
1分钟前
万能图书馆应助Firefire采纳,获得10
1分钟前
1分钟前
1分钟前
1分钟前
眯眯眼的冰真完成签到,获得积分10
1分钟前
wenwen0666发布了新的文献求助30
1分钟前
科研通AI2S应助Lxxxxx采纳,获得10
1分钟前
失眠冰海发布了新的文献求助10
1分钟前
1分钟前
科研通AI2S应助懦弱的问芙采纳,获得10
1分钟前
1分钟前
1分钟前
sittingduck完成签到,获得积分10
1分钟前
郭润发发布了新的文献求助10
1分钟前
852应助Firefire采纳,获得10
1分钟前
Lxxxxx发布了新的文献求助10
1分钟前
甜甜白玉完成签到 ,获得积分10
1分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Inorganic Chemistry Eighth Edition 1200
Free parameter models in liquid scintillation counting 1000
Anionic polymerization of acenaphthylene: identification of impurity species formed as by-products 1000
Standards for Molecular Testing for Red Cell, Platelet, and Neutrophil Antigens, 7th edition 1000
The Organic Chemistry of Biological Pathways Second Edition 800
The Psychological Quest for Meaning 800
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6313357
求助须知:如何正确求助?哪些是违规求助? 8129819
关于积分的说明 17036772
捐赠科研通 5369933
什么是DOI,文献DOI怎么找? 2851118
邀请新用户注册赠送积分活动 1828936
关于科研通互助平台的介绍 1681101