PLSDA-batch: a multivariate framework to correct for batch effects in microbiome data

计算机科学 过度分散 批处理 多元统计 偏最小二乘回归 微生物群 数据挖掘 统计 机器学习 计数数据 数学 生物信息学 生物 泊松分布 程序设计语言
作者
Yi-Wen Wang,Kim-Anh Lê Cao
出处
期刊:Briefings in Bioinformatics [Oxford University Press]
标识
DOI:10.1093/bib/bbac622
摘要

Microbial communities are highly dynamic and sensitive to changes in the environment. Thus, microbiome data are highly susceptible to batch effects, defined as sources of unwanted variation that are not related to and obscure any factors of interest. Existing batch effect correction methods have been primarily developed for gene expression data. As such, they do not consider the inherent characteristics of microbiome data, including zero inflation, overdispersion and correlation between variables. We introduce new multivariate and non-parametric batch effect correction methods based on Partial Least Squares Discriminant Analysis (PLSDA). PLSDA-batch first estimates treatment and batch variation with latent components, then subtracts batch-associated components from the data. The resulting batch-effect-corrected data can then be input in any downstream statistical analysis. Two variants are proposed to handle unbalanced batch x treatment designs and to avoid overfitting when estimating the components via variable selection. We compare our approaches with popular methods managing batch effects, namely, removeBatchEffect, ComBat and Surrogate Variable Analysis, in simulated and three case studies using various visual and numerical assessments. We show that our three methods lead to competitive performance in removing batch variation while preserving treatment variation, especially for unbalanced batch $\times $ treatment designs. Our downstream analyses show selections of biologically relevant taxa. This work demonstrates that batch effect correction methods can improve microbiome research outputs. Reproducible code and vignettes are available on GitHub.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
terryok发布了新的文献求助10
1秒前
秋雪瑶应助蓝色采纳,获得10
2秒前
4秒前
研友_Lpawrn发布了新的文献求助10
5秒前
5秒前
5秒前
脑洞疼应助小心采纳,获得10
6秒前
6秒前
光亮的啤酒完成签到,获得积分10
7秒前
淙淙完成签到,获得积分10
8秒前
柯一一应助风车车采纳,获得20
8秒前
9秒前
10秒前
wubobo发布了新的文献求助10
10秒前
我要毕业发布了新的文献求助10
12秒前
ruiruirui完成签到,获得积分10
14秒前
华仔应助细腻笑卉采纳,获得10
14秒前
15秒前
动人的绫发布了新的文献求助10
15秒前
16秒前
优雅的冬瓜完成签到,获得积分10
17秒前
CodeCraft应助蚂蚁爱上树采纳,获得10
17秒前
小马甲应助蚂蚁爱上树采纳,获得30
17秒前
orixero应助蚂蚁爱上树采纳,获得10
17秒前
轻松元正发布了新的文献求助10
17秒前
rocky15应助wubobo采纳,获得10
18秒前
19秒前
我要毕业完成签到,获得积分10
19秒前
星辰大海应助强强采纳,获得10
21秒前
小二点发布了新的文献求助10
22秒前
22秒前
KL完成签到,获得积分10
25秒前
动人的绫完成签到,获得积分20
25秒前
西西发布了新的文献求助10
27秒前
28秒前
磊878完成签到 ,获得积分10
29秒前
133应助小白采纳,获得10
30秒前
田様应助于浩采纳,获得10
34秒前
35秒前
suake完成签到,获得积分10
36秒前
高分求助中
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 1000
Corrosion and Oxygen Control 600
Yaws' Handbook of Antoine coefficients for vapor pressure 500
Python Programming for Linguistics and Digital Humanities: Applications for Text-Focused Fields 500
Division and square root. Digit-recurrence algorithms and implementations 400
行動データの計算論モデリング 強化学習モデルを例として 400
Johann Gottlieb Fichte: Die späten wissenschaftlichen Vorlesungen / IV,1: ›Transzendentale Logik I (1812)‹ 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2553376
求助须知:如何正确求助?哪些是违规求助? 2178486
关于积分的说明 5614515
捐赠科研通 1899518
什么是DOI,文献DOI怎么找? 948424
版权声明 565554
科研通“疑难数据库(出版商)”最低求助积分说明 504401