SHARCGS, a fast and highly accurate short-read assembly algorithm for de novo genomic sequencing

康蒂格 杂交基因组组装 顺序装配 生物 基因组 遗传学 参考基因组 DNA测序 计算生物学 纳米孔测序 基因 转录组 基因表达
作者
Juliane C. Dohm,Claudio Lottaz,Tatiana Borodina,Heinz Himmelbauer
出处
期刊:Genome Research [Cold Spring Harbor Laboratory Press]
卷期号:17 (11): 1697-1706 被引量:281
标识
DOI:10.1101/gr.6435207
摘要

The latest revolution in the DNA sequencing field has been brought about by the development of automated sequencers that are capable of generating giga base pair data sets quickly and at low cost. Applications of such technologies seem to be limited to resequencing and transcript discovery, due to the shortness of the generated reads. In order to extend the fields of application to de novo sequencing, we developed the SHARCGS algorithm to assemble short-read (25–40-mer) data with high accuracy and speed. The efficiency of SHARCGS was tested on BAC inserts from three eukaryotic species, on two yeast chromosomes, and on two bacterial genomes ( Haemophilus influenzae , Escherichia coli ). We show that 30-mer-based BAC assemblies have N50 sizes >20 kbp for Drosophila and Arabidopsis and >4 kbp for human in simulations taking missing reads and wrong base calls into account. We assembled 949,974 contigs with length >50 bp, and only one single contig could not be aligned error-free against the reference sequences. We generated 36-mer reads for the genome of Helicobacter acinonychis on the Illumina 1G sequencing instrument and assembled 937 contigs covering 98% of the genome with an N50 size of 3.7 kbp. With the exception of five contigs that differ in 1–4 positions relative to the reference sequence, all contigs matched the genome error-free. Thus, SHARCGS is a suitable tool for fully exploiting novel sequencing technologies by assembling sequence contigs de novo with high confidence and by outperforming existing assembly algorithms in terms of speed and accuracy.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Marco完成签到,获得积分10
1秒前
1秒前
明钟达完成签到,获得积分10
1秒前
118QQ完成签到,获得积分10
1秒前
1秒前
长空飞雁完成签到,获得积分10
2秒前
2秒前
kyt完成签到,获得积分10
2秒前
整齐夜安完成签到,获得积分10
2秒前
悦耳的乐松完成签到,获得积分10
2秒前
2秒前
刻苦的新烟完成签到 ,获得积分0
2秒前
新楚完成签到 ,获得积分10
3秒前
Bean完成签到,获得积分10
3秒前
HanQing完成签到,获得积分20
3秒前
3秒前
Yummy完成签到,获得积分20
4秒前
早点休息发布了新的文献求助10
5秒前
圣诞树完成签到,获得积分10
5秒前
DreamLover完成签到,获得积分10
5秒前
Lucas应助YJ采纳,获得10
6秒前
yaoyh_gc完成签到,获得积分10
6秒前
科研小垃圾完成签到,获得积分0
6秒前
Total发布了新的文献求助10
7秒前
7秒前
eric发布了新的文献求助10
7秒前
zhugao完成签到,获得积分10
7秒前
领导范儿应助jiajia采纳,获得10
7秒前
妮妮完成签到 ,获得积分10
8秒前
bktz完成签到,获得积分10
8秒前
zxzx发布了新的文献求助10
8秒前
养只缅因完成签到 ,获得积分10
8秒前
MKY完成签到,获得积分10
8秒前
阿苏完成签到 ,获得积分10
8秒前
verimency发布了新的文献求助10
8秒前
zizizizi完成签到,获得积分10
9秒前
华仔应助longer采纳,获得10
9秒前
大西瓜完成签到,获得积分10
9秒前
9秒前
JF123_完成签到 ,获得积分10
9秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Organometallic Chemistry of the Transition Metals 800
Chemistry and Physics of Carbon Volume 18 800
The Organometallic Chemistry of the Transition Metals 800
The formation of Australian attitudes towards China, 1918-1941 640
Signals, Systems, and Signal Processing 610
全相对论原子结构与含时波包动力学的理论研究--清华大学 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6441049
求助须知:如何正确求助?哪些是违规求助? 8254984
关于积分的说明 17574058
捐赠科研通 5499644
什么是DOI,文献DOI怎么找? 2900128
邀请新用户注册赠送积分活动 1876853
关于科研通互助平台的介绍 1716955