CHARR efficiently estimates contamination from DNA sequencing data

污染 基因分型 外显子组测序 外显子组 全基因组测序 基因组 DNA测序 计算生物学 样品(材料) 参考基因组 公制(单位) 计算机科学 生物 基因型 DNA 遗传学 基因 工程类 生态学 突变 色谱法 化学 运营管理
作者
Wei Lü,Laura D. Gauthier,Timothy Poterba,Edoardo Giacopuzzi,Julia K. Goodrich,Christine Stevens,Daniel King,Mark J. Daly,Benjamin M. Neale,Konrad J. Karczewski
标识
DOI:10.1101/2023.06.28.545801
摘要

DNA sample contamination is a major issue in clinical and research applications of whole genome and exome sequencing. Even modest levels of contamination can substantially affect the overall quality of variant calls and lead to widespread genotyping errors. Currently, popular tools for estimating the contamination level use short-read data (BAM/CRAM files), which are expensive to store and manipulate and often not retained or shared widely. We propose a new metric to estimate DNA sample contamination from variant-level whole genome and exome sequence data, CHARR, Contamination from Homozygous Alternate Reference Reads, which leverages the infiltration of reference reads within homozygous alternate variant calls. CHARR uses a small proportion of variant-level genotype information and thus can be computed from single-sample gVCFs or callsets in VCF or BCF formats, as well as efficiently stored variant calls in Hail VDS format. Our results demonstrate that CHARR accurately recapitulates results from existing tools with substantially reduced costs, improving the accuracy and efficiency of downstream analyses of ultra-large whole genome and exome sequencing datasets.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
酷酷的竺完成签到,获得积分10
刚刚
高兴的小发布了新的文献求助10
刚刚
2秒前
2秒前
单纯不呐呐完成签到,获得积分10
3秒前
blue2021发布了新的文献求助10
4秒前
酷酷的竺发布了新的文献求助10
4秒前
妮妮发布了新的文献求助10
5秒前
6秒前
CodeCraft应助单纯不呐呐采纳,获得10
7秒前
8秒前
HJZ完成签到,获得积分10
10秒前
aaaa发布了新的文献求助10
10秒前
旅途之人发布了新的文献求助10
14秒前
司纤户羽发布了新的文献求助10
15秒前
16秒前
17秒前
传统的语柳完成签到,获得积分10
17秒前
shain完成签到,获得积分10
17秒前
18秒前
yangyajie发布了新的文献求助10
20秒前
小尹同学应助luchong采纳,获得30
22秒前
cctv18应助甜甜的不尤采纳,获得10
24秒前
24秒前
搜集达人应助高强采纳,获得10
25秒前
26秒前
爱航哥多久了完成签到,获得积分10
26秒前
高兴纸鹤发布了新的文献求助50
27秒前
果冻泥发布了新的文献求助10
28秒前
Laity发布了新的文献求助10
29秒前
学术小黑兔发布了新的文献求助100
30秒前
windyhill完成签到,获得积分10
32秒前
Kw完成签到,获得积分10
32秒前
36秒前
香蕉觅云应助SuLi_ALL采纳,获得30
36秒前
我是老大应助辛勤厉采纳,获得10
37秒前
38秒前
高强发布了新的文献求助10
39秒前
妮妮完成签到,获得积分10
40秒前
46秒前
高分求助中
Manual of Clinical Microbiology, 4 Volume Set (ASM Books) 13th Edition 1000
Teaching Social and Emotional Learning in Physical Education 900
Boris Pesce - Gli impiegati della Fiat dal 1955 al 1999 un percorso nella memoria 500
Chinese-English Translation Lexicon Version 3.0 500
Recherches Ethnographiques sue les Yao dans la Chine du Sud 500
Two-sample Mendelian randomization analysis reveals causal relationships between blood lipids and venous thromboembolism 500
[Lambert-Eaton syndrome without calcium channel autoantibodies] 460
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2397832
求助须知:如何正确求助?哪些是违规求助? 2099271
关于积分的说明 5291905
捐赠科研通 1827183
什么是DOI,文献DOI怎么找? 910790
版权声明 560048
科研通“疑难数据库(出版商)”最低求助积分说明 486836