Principal Component Analyses (PCA)-based findings in population genetic studies are highly biased and must be reevaluated

主成分分析 人口 多元统计 领域(数学) 多元分析 计算机科学 人工智能 统计 生物 机器学习 数学 医学 环境卫生 纯数学
作者
Eran Elhaik
出处
期刊:Scientific Reports [Nature Portfolio]
卷期号:12 (1) 被引量:91
标识
DOI:10.1038/s41598-022-14395-4
摘要

Abstract Principal Component Analysis (PCA) is a multivariate analysis that reduces the complexity of datasets while preserving data covariance. The outcome can be visualized on colorful scatterplots, ideally with only a minimal loss of information. PCA applications, implemented in well-cited packages like EIGENSOFT and PLINK, are extensively used as the foremost analyses in population genetics and related fields (e.g., animal and plant or medical genetics). PCA outcomes are used to shape study design, identify, and characterize individuals and populations, and draw historical and ethnobiological conclusions on origins, evolution, dispersion, and relatedness. The replicability crisis in science has prompted us to evaluate whether PCA results are reliable, robust, and replicable. We analyzed twelve common test cases using an intuitive color-based model alongside human population data. We demonstrate that PCA results can be artifacts of the data and can be easily manipulated to generate desired outcomes. PCA adjustment also yielded unfavorable outcomes in association studies. PCA results may not be reliable, robust, or replicable as the field assumes. Our findings raise concerns about the validity of results reported in the population genetics literature and related fields that place a disproportionate reliance upon PCA outcomes and the insights derived from them. We conclude that PCA may have a biasing role in genetic investigations and that 32,000-216,000 genetic studies should be reevaluated. An alternative mixed-admixture population genetic model is discussed.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
whyren完成签到,获得积分10
2秒前
小瑄完成签到 ,获得积分10
3秒前
一枝完成签到 ,获得积分10
3秒前
酷酷的涵蕾完成签到 ,获得积分10
4秒前
过时的又槐完成签到,获得积分10
9秒前
jhcraul完成签到,获得积分0
12秒前
gwbk完成签到,获得积分10
13秒前
Cry_Man完成签到 ,获得积分10
17秒前
18秒前
包包完成签到 ,获得积分10
21秒前
24秒前
美少叔叔发布了新的文献求助10
25秒前
ZH完成签到 ,获得积分10
27秒前
聪慧芷巧发布了新的文献求助10
27秒前
myuniv发布了新的文献求助10
27秒前
29秒前
woodword完成签到,获得积分10
31秒前
Fengzhen007完成签到,获得积分10
34秒前
聪慧芷巧发布了新的文献求助10
34秒前
美少叔叔发布了新的文献求助10
42秒前
研究生完成签到 ,获得积分10
46秒前
46秒前
1111完成签到 ,获得积分10
49秒前
xu完成签到,获得积分10
49秒前
hdc12138完成签到,获得积分10
52秒前
可爱的紫菜完成签到 ,获得积分0
53秒前
ty发布了新的文献求助10
54秒前
美少叔叔发布了新的文献求助10
57秒前
58秒前
1分钟前
wangzhiqin发布了新的文献求助10
1分钟前
yaolei完成签到,获得积分10
1分钟前
一味愚完成签到,获得积分10
1分钟前
zz完成签到,获得积分10
1分钟前
诺布完成签到 ,获得积分10
1分钟前
1分钟前
可达鸭完成签到 ,获得积分10
1分钟前
陈曦发布了新的文献求助10
1分钟前
Raymond完成签到,获得积分10
1分钟前
高分求助中
The Mother of All Tableaux Order, Equivalence, and Geometry in the Large-scale Structure of Optimality Theory 2400
Optimal Transport: A Comprehensive Introduction to Modeling, Analysis, Simulation, Applications 800
Official Methods of Analysis of AOAC INTERNATIONAL 600
Comparison of adverse drug reactions of heparin and its derivates in the European Economic Area based on data from EudraVigilance between 2017 and 2021 500
[Relativity of the 5-year follow-up period as a criterion for cured cancer] 500
Statistical Analysis of fMRI Data, second edition (Mit Press) 2nd ed 500
Huang‘s catheter ablation of cardiac arrthymias 5th edtion 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 3946216
求助须知:如何正确求助?哪些是违规求助? 3491121
关于积分的说明 11059069
捐赠科研通 3222070
什么是DOI,文献DOI怎么找? 1780839
邀请新用户注册赠送积分活动 865866
科研通“疑难数据库(出版商)”最低求助积分说明 800083