Harnessing the Foundation Model for Exploration of Single-cell Expression Atlases in Plants

注释 计算机科学 推论 聚类分析 源代码 数据集成 计算生物学 人工智能 数据挖掘 机器学习 生物 操作系统
作者
Guangshuo Cao,Haoyu Chao,Wenjun Zheng,Yangming Lan,Kaiyan Lu,Yueyi Wang,Ming Chen,He Zhang,Dijun Chen
出处
期刊:Genomics, Proteomics & Bioinformatics [Elsevier]
被引量:1
标识
DOI:10.1093/gpbjnl/qzaf024
摘要

Abstract Single-cell RNA sequencing (scRNA-seq) provides unprecedented insights into plant cellular diversity by enabling high-resolution analyses of gene expression at the single-cell level. However, the complexity of scRNA-seq data, including challenges in batch integration, cell type annotation, and gene regulatory network (GRN) inference, demands advanced computational approaches. To address these challenges, we developed scPlantLLM, a Transformer model trained on millions of plant single-cell data points. Using a sequential pretraining strategy incorporating masked language modeling and cell type annotation tasks, scPlantLLM generates robust and interpretable single-cell data embeddings. When applied to Arabidopsis thaliana datasets, scPlantLLM excels in clustering, cell type annotation, and batch integration, achieving an accuracy of up to 0.91 in zero-shot learning scenarios. Furthermore, the model demonstrates an ability to identify biologically meaningful GRNs and subtle cellular subtypes, showcasing its potential to advance plant biology research. Compared to traditional methods, scPlantLLM outperforms in key metrics such as adjusted rand index (ARI), normalized mutual information (NMI) and silhouette score (SIL), highlighting its superior clustering accuracy and biological relevance. scPlantLLM represents a foundational model for exploring plant single-cell expression atlases, offering unprecedented capabilities to resolve cellular heterogeneity and regulatory dynamics across diverse plant systems. The code used in this study is available at https://github.com/compbioNJU/scPlantLLM.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
小面包说晚安完成签到,获得积分10
刚刚
刚刚
hii发布了新的文献求助10
1秒前
1秒前
笨笨夕阳发布了新的文献求助10
1秒前
allin发布了新的文献求助50
1秒前
rjhgh完成签到,获得积分10
1秒前
刘放发布了新的文献求助10
2秒前
2秒前
111发布了新的文献求助10
2秒前
星辰大海应助心心采纳,获得10
2秒前
枯夏完成签到 ,获得积分10
2秒前
罗先生发布了新的文献求助10
3秒前
3秒前
星期八发布了新的文献求助10
3秒前
无极微光应助Os1采纳,获得20
3秒前
4秒前
bjbmtxy应助醉蓝采纳,获得10
4秒前
阿菜完成签到,获得积分10
5秒前
科研小道发布了新的文献求助10
5秒前
酷波er应助不要读文献采纳,获得10
5秒前
传奇3应助走四方采纳,获得10
5秒前
自信向梦完成签到,获得积分10
5秒前
5秒前
6秒前
LL发布了新的文献求助10
6秒前
6秒前
Cc发布了新的文献求助10
6秒前
yyyy发布了新的文献求助10
6秒前
6秒前
wongshanshan完成签到,获得积分10
6秒前
田様应助xky3371采纳,获得10
6秒前
mnliao完成签到,获得积分10
7秒前
7秒前
岳粤发布了新的文献求助10
7秒前
量子星尘发布了新的文献求助10
8秒前
8秒前
paek完成签到,获得积分10
8秒前
9秒前
9秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Relation between chemical structure and local anesthetic action: tertiary alkylamine derivatives of diphenylhydantoin 1000
Signals, Systems, and Signal Processing 610
Discrete-Time Signals and Systems 610
Principles of town planning : translating concepts to applications 500
Iron‐Sulfur Clusters: Biogenesis and Biochemistry 400
Healable Polymer Systems: Fundamentals, Synthesis and Applications 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 纳米技术 有机化学 物理 生物化学 化学工程 计算机科学 复合材料 内科学 催化作用 光电子学 物理化学 电极 冶金 遗传学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 6069749
求助须知:如何正确求助?哪些是违规求助? 7901581
关于积分的说明 16334276
捐赠科研通 5210757
什么是DOI,文献DOI怎么找? 2786983
邀请新用户注册赠送积分活动 1769834
关于科研通互助平台的介绍 1648020