On the Representation of De Bruijn Graphs

德布鲁恩序列 德布鲁因图 瓶颈 计算机科学 理论计算机科学 数据结构 图形 代表(政治) 数学 离散数学 程序设计语言 政治学 政治 嵌入式系统 法学
作者
Rayan Chikhi,Antoine Limasset,Shaun D. Jackman,Jared T. Simpson,Paul Medvedev
出处
期刊:Journal of Computational Biology [Mary Ann Liebert, Inc.]
卷期号:22 (5): 336-352 被引量:69
标识
DOI:10.1089/cmb.2014.0160
摘要

The de Bruijn graph plays an important role in bioinformatics, especially in the context of de novo assembly. However, the representation of the de Bruijn graph in memory is a computational bottleneck for many assemblers. Recent papers proposed a navigational data structure approach in order to improve memory usage. We prove several theoretical space lower bounds to show the limitations of these types of approaches. We further design and implement a general data structure (dbgfm) and demonstrate its use on a human whole-genome dataset, achieving space usage of 1.5 GB and a 46% improvement over previous approaches. As part of dbgfm, we develop the notion of frequency-based minimizers and show how it can be used to enumerate all maximal simple paths of the de Bruijn graph using only 43 MB of memory. Finally, we demonstrate that our approach can be integrated into an existing assembler by modifying the ABySS software to use dbgfm.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
研友_VZG7GZ应助dachengzi采纳,获得10
刚刚
刚刚
Murray发布了新的文献求助30
刚刚
高高的魔镜应助gy采纳,获得10
刚刚
小落完成签到,获得积分10
1秒前
1秒前
小马甲应助Pengcheng采纳,获得10
1秒前
科研通AI5应助研友_nEW4G8采纳,获得10
2秒前
小晋发布了新的文献求助10
2秒前
英俊的铭应助费箴采纳,获得10
3秒前
HEIKU举报guanoo求助涉嫌违规
3秒前
ly发布了新的文献求助10
4秒前
江停完成签到,获得积分10
5秒前
bububusbu完成签到,获得积分10
5秒前
zz完成签到,获得积分10
5秒前
子舟完成签到,获得积分10
5秒前
nani发布了新的文献求助50
5秒前
5秒前
6秒前
兔斯基萌发布了新的文献求助10
6秒前
6秒前
7秒前
7秒前
感动的元灵完成签到,获得积分20
7秒前
7秒前
8秒前
要少吃糖发布了新的文献求助30
9秒前
Hello应助平常的不评采纳,获得10
9秒前
9秒前
丰富的不惜完成签到,获得积分10
9秒前
9秒前
哭泣老头发布了新的文献求助10
10秒前
10秒前
csj发布了新的文献求助10
10秒前
iii发布了新的文献求助10
11秒前
Bbbb发布了新的文献求助10
11秒前
12秒前
无花果应助火速阿百川采纳,获得10
12秒前
12秒前
大力山槐完成签到,获得积分10
12秒前
高分求助中
Algorithmic Mathematics in Machine Learning 500
Advances in Underwater Acoustics, Structural Acoustics, and Computational Methodologies 400
Getting Published in SSCI Journals: 200+ Questions and Answers for Absolute Beginners 300
Fatigue of Materials and Structures 260
The Monocyte-to-HDL ratio (MHR) as a prognostic and diagnostic biomarker in Acute Ischemic Stroke: A systematic review with meta-analysis (P9-14.010) 240
The Burge and Minnechaduza Clarendonian mammalian faunas of north-central Nebraska 206
An Integrated Solution for Application of Next-Generation Sequencing in Newborn Screening 200
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3832129
求助须知:如何正确求助?哪些是违规求助? 3374463
关于积分的说明 10485185
捐赠科研通 3094316
什么是DOI,文献DOI怎么找? 1703421
邀请新用户注册赠送积分活动 819464
科研通“疑难数据库(出版商)”最低求助积分说明 771533