Highly accurate assembly polishing with DeepPolisher

抛光 生物 计算生物学 材料科学 冶金
作者
Mira Mastoras,Mobin Asri,Lucas Brambrink,Prajna Hebbar,Alexey Kolesnikov,Daniel E. Cook,Maria Nattestad,Julian Lucas,Sohui T. Won,Pi-Chuan Chang,Andrew Carroll,Benedict Paten,Kishwar Shafin
出处
期刊:Genome Research [Cold Spring Harbor Laboratory Press]
卷期号:35 (7): 1595-1608 被引量:2
标识
DOI:10.1101/gr.280149.124
摘要

Accurate genome assemblies are essential for biological research, but even the highest-quality assemblies retain errors caused by the technologies used to construct them. Base-level errors are typically fixed with an additional polishing step that uses reads aligned to the draft assembly to identify necessary edits. However, current methods struggle to find a balance between over- and underpolishing. Here, we present an encoder-only transformer model for assembly polishing called DeepPolisher, which predicts corrections to the underlying sequence using Pacific Biosciences (PacBio) HiFi read alignments to a diploid assembly. Our pipeline introduces a method, PHAsing Reads in Areas Of Homozygosity (PHARAOH), which uses ultralong Oxford Nanopore Technologies (ONT) data to ensure alignments are accurately phased and to correctly introduce heterozygous edits in falsely homozygous regions. We demonstrate that the DeepPolisher pipeline can reduce assembly errors by approximately half, mostly driven by reductions in indel errors. We have applied our DeepPolisher-based pipeline to 180 assemblies from the next Human Pangenome Reference Consortium (HPRC) data release, producing an average predicted quality value (QV) improvement of 3.4 (54% error reduction) for the majority of the genome.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
yangshihai完成签到,获得积分10
刚刚
芝士吐司完成签到,获得积分10
1秒前
1秒前
木南发布了新的文献求助10
2秒前
斯文败类应助伶俐的灵凡采纳,获得10
2秒前
碧阳的尔风完成签到,获得积分10
3秒前
Biscuit完成签到,获得积分10
3秒前
天涯倦客发布了新的文献求助20
3秒前
哒哒哒宰完成签到,获得积分10
4秒前
张梦茜完成签到,获得积分20
5秒前
万能图书馆应助海东南采纳,获得10
5秒前
5秒前
7秒前
深情安青应助白色风车采纳,获得10
7秒前
科目三应助如是我闻采纳,获得10
8秒前
山雨微凉完成签到,获得积分10
8秒前
爱吃饭的羊完成签到,获得积分20
8秒前
mengdewen发布了新的文献求助30
10秒前
10秒前
11秒前
张梦茜发布了新的文献求助10
11秒前
共享精神应助123采纳,获得10
11秒前
12秒前
12秒前
小阿操发布了新的文献求助10
12秒前
15秒前
地瓜发布了新的文献求助10
15秒前
16秒前
充电宝应助lsl采纳,获得10
16秒前
16秒前
葵花发布了新的文献求助10
16秒前
刘夏楠发布了新的文献求助10
17秒前
海东南发布了新的文献求助10
18秒前
xiaoxiao发布了新的文献求助10
19秒前
自觉葶完成签到,获得积分10
20秒前
20秒前
苹果南风完成签到,获得积分10
20秒前
研友_VZG7GZ应助ZJJ采纳,获得10
20秒前
天天快乐应助Suysheng采纳,获得10
20秒前
脑洞疼应助元宝团子采纳,获得10
20秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Cronologia da história de Macau 5000
Petrology and Plate Tectonics 800
Prompt Engineering for Clinicians: Harnessing AI in Everyday Medical Practice 600
Electrode Potentials 550
Handbook Of Synthetic Methodologies And Protocols Of Nanomaterials 500
Trees of tropical Asia : an illustrated guide to diversity 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 内科学 物理 复合材料 催化作用 细胞生物学 光电子学 物理化学 电极 基因 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 6982164
求助须知:如何正确求助?哪些是违规求助? 8660735
关于积分的说明 18363205
捐赠科研通 6446469
什么是DOI,文献DOI怎么找? 3093752
关于科研通互助平台的介绍 2150953
邀请新用户注册赠送积分活动 2070015