A Statistical Approach for Identifying the Best Combination of Normalization and Imputation Methods for Label-Free Proteomics Expression Data

规范化(社会学) 蛋白质组学 插补(统计学) 计算机科学 计算生物学 数据挖掘 人工智能 生物 缺少数据 机器学习 遗传学 人类学 基因 社会学
作者
Kabilan Sakthivel,Shashi Bhushan Lal,Sudhir Srivastava,Krishna Kumar Chaturvedi,Jeshima Khan Yasin,Dwijesh Chandra Mishra,Sharanbasappa D Madival,Ramasubramanian Vaidhyanathan,Girish Kumar Jha
出处
期刊:Journal of Proteome Research [American Chemical Society]
卷期号:24 (1): 158-170 被引量:1
标识
DOI:10.1021/acs.jproteome.4c00552
摘要

Label-free proteomics expression data sets often exhibit data heterogeneity and missing values, necessitating the development of effective normalization and imputation methods. The selection of appropriate normalization and imputation methods is inherently data-specific, and choosing the optimal approach from the available options is critical for ensuring robust downstream analysis. This study aimed to identify the most suitable combination of these methods for quality control and accurate identification of differentially expressed proteins. In this study, we developed nine combinations by integrating three normalization methods, locally weighted linear regression (LOESS), variance stabilization normalization (VSN), and robust linear regression (RLR) with three imputation methods: k-nearest neighbors (k-NN), local least-squares (LLS), and singular value decomposition (SVD). We utilized statistical measures, including the pooled coefficient of variation (PCV), pooled estimate of variance (PEV), and pooled median absolute deviation (PMAD), to assess intragroup and intergroup variation. The combinations yielding the lowest values corresponding to each statistical measure were chosen as the data set's suitable normalization and imputation methods. The performance of this approach was tested using two spiked-in standard label-free proteomics benchmark data sets. The identified combinations returned a low NRMSE and showed better performance in identifying spiked-in proteins. The developed approach can be accessed through the R package named 'lfproQC' and a user-friendly Shiny web application (https://dabiniasri.shinyapps.io/lfproQC and http://omics.icar.gov.in/lfproQC), making it a valuable resource for researchers looking to apply this method to their data sets.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
逍遥完成签到,获得积分10
刚刚
何88888888完成签到,获得积分10
刚刚
kyle发布了新的文献求助10
2秒前
偏遇完成签到,获得积分10
2秒前
cici给cici的求助进行了留言
2秒前
bamboo完成签到,获得积分10
3秒前
gaoxiaogao完成签到,获得积分10
3秒前
AHA完成签到,获得积分10
4秒前
5秒前
酪酪Alona完成签到,获得积分10
5秒前
tulip完成签到 ,获得积分10
5秒前
cjj完成签到,获得积分10
5秒前
lindo完成签到 ,获得积分10
6秒前
七七完成签到 ,获得积分10
6秒前
Ava应助Liugz采纳,获得10
6秒前
阿白完成签到,获得积分10
7秒前
夜霄咕咕鸽完成签到 ,获得积分10
7秒前
7秒前
轻松的小白菜完成签到,获得积分10
8秒前
获奖感言完成签到,获得积分10
9秒前
安若好便是晴完成签到,获得积分10
9秒前
言非离完成签到,获得积分10
9秒前
XY_zj发布了新的文献求助10
9秒前
小星星完成签到,获得积分20
10秒前
10秒前
JiangHb完成签到,获得积分10
10秒前
开心的飞扬完成签到,获得积分10
10秒前
共享精神应助唐盼烟采纳,获得10
11秒前
11秒前
潜龙完成签到,获得积分10
11秒前
三颗星南极三完成签到 ,获得积分10
12秒前
科研欣路完成签到 ,获得积分10
12秒前
13秒前
13秒前
闲云野鹤完成签到,获得积分10
13秒前
淡淡的鹭洋完成签到 ,获得积分10
14秒前
accelia完成签到,获得积分10
14秒前
格子完成签到,获得积分10
15秒前
12135完成签到 ,获得积分10
16秒前
12l发布了新的文献求助10
16秒前
高分求助中
Clinical Epidemiology: The Essentials, 6e 10000
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Graphene Handbook (2019 Edition) 800
Adhesion Science: Principles & Practice 800
Signals, Systems, and Signal Processing 610
Fundamentals of Pharmaceutical and Biologics Regulations: A Global Perspective, Second Edition 600
久松真一著作集〈第5巻〉禅と芸術 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6555301
求助须知:如何正确求助?哪些是违规求助? 8339577
关于积分的说明 17866208
捐赠科研通 5672857
什么是DOI,文献DOI怎么找? 2940215
邀请新用户注册赠送积分活动 1916123
关于科研通互助平台的介绍 1786088