Deep embedding and alignment of protein sequences

计算机科学 正确性 杠杆(统计) 人工智能 序列比对 嵌入 计算生物学 钥匙(锁) 多序列比对 基因组学 蛋白质测序 机器学习 基因组 肽序列 生物 算法 遗传学 基因 计算机安全
作者
Felipe Llinares-López,Quentin Berthet,Mathieu Blondel,Olivier Teboul,Jean-Philippe Vert
标识
DOI:10.1101/2021.11.15.468653
摘要

Abstract Protein sequence alignment is a key component of most bioinformatics pipelines to study the structures and functions of proteins. Aligning highly divergent sequences remains, however, a difficult task that current algorithms often fail to perform accurately, leaving many proteins or open reading frames poorly annotated. Here, we leverage recent advances in deep learning for language modelling and differentiable programming to propose DEDAL, a flexible model to align protein sequences and detect homologs. DEDAL is a machine learning-based model that learns to align sequences by observing large datasets of raw protein sequences and of correct alignments. Once trained, we show that DEDAL improves by up to two- or three-fold the alignment correctness over existing methods on remote homologs, and better discriminates remote homologs from evolutionarily unrelated sequences, paving the way to improvements on many downstream tasks relying on sequence alignment in structural and functional genomics.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
大个应助reny采纳,获得10
1秒前
lkk发布了新的文献求助10
1秒前
2秒前
2秒前
3秒前
3秒前
小洪俊熙发布了新的文献求助10
5秒前
莫华龙发布了新的文献求助10
7秒前
9秒前
10秒前
hddjeff发布了新的文献求助10
13秒前
lyy发布了新的文献求助10
14秒前
19秒前
慕青应助大气伯云采纳,获得10
19秒前
20秒前
20秒前
zxx完成签到,获得积分10
21秒前
没烦恼完成签到,获得积分10
23秒前
25秒前
26秒前
鳗鱼莛完成签到,获得积分10
27秒前
友好南珍发布了新的文献求助10
29秒前
灿烂阳光下的稻田完成签到,获得积分10
29秒前
30秒前
Liao发布了新的文献求助10
31秒前
充电宝应助Qqh采纳,获得20
32秒前
三木完成签到,获得积分10
34秒前
fffff发布了新的文献求助100
35秒前
36秒前
37秒前
小马甲应助乐风采纳,获得10
37秒前
周一完成签到,获得积分10
39秒前
没烦恼发布了新的文献求助10
39秒前
无限的时光完成签到,获得积分10
40秒前
大气伯云发布了新的文献求助10
42秒前
黄焖张张包完成签到 ,获得积分10
45秒前
华仔应助乐风采纳,获得10
46秒前
47秒前
所所应助心灵美的飞机采纳,获得10
47秒前
50秒前
高分求助中
Teaching Social and Emotional Learning in Physical Education 900
Plesiosaur extinction cycles; events that mark the beginning, middle and end of the Cretaceous 800
Recherches Ethnographiques sue les Yao dans la Chine du Sud 500
Two-sample Mendelian randomization analysis reveals causal relationships between blood lipids and venous thromboembolism 500
Chinese-English Translation Lexicon Version 3.0 500
[Lambert-Eaton syndrome without calcium channel autoantibodies] 440
Wisdom, Gods and Literature Studies in Assyriology in Honour of W. G. Lambert 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2390106
求助须知:如何正确求助?哪些是违规求助? 2096227
关于积分的说明 5280391
捐赠科研通 1823482
什么是DOI,文献DOI怎么找? 909528
版权声明 559638
科研通“疑难数据库(出版商)”最低求助积分说明 486017