scMulan: a multitask generative pre-trained language model for single-cell analysis

生成语法 计算机科学 自然语言处理 生成模型 语言学 语言模型 人工智能 心理学 哲学
作者
Haiyang Bian,Yixin Chen,Xiaomin Dong,Chen Li,Minsheng Hao,Sijie Chen,Jinyi Hu,Maosong Sun,Lei Wei,Xuegong Zhang
标识
DOI:10.1101/2024.01.25.577152
摘要

Abstract Gene expression could be perceived as a form of cell language, with underlying regulatory mechanisms akin to biological grammar. Decoding this “language” is critical in understanding cellular functions and behaviors, but presents significant challenges. Several works have attempted to learn the biological language by pre-training large foundation models based on single-cell transcriptomic data, inspired by the success of large language models in natural language processing. In this study, we further enrich the pre-training paradigm by integrating an abundance of metadata and a multiplicity of pre-training tasks, and obtain scMulan, a multitask generative pre-trained language model tailored for single-cell analysis. We represent a cell as a structured cell sentence (c-sentence) by encoding its gene expression, metadata terms, and target tasks as words of tuples, each consisting of entities and their corresponding values. We construct a unified generative framework to model the cell language on c-sentence and design three pretraining tasks to bridge the microscopic and macroscopic information within the c-sentences. We pre-train scMulan on 10 million single-cell transcriptomic data and their corresponding metadata, with 368 million parameters. As a single model, scMulan can accomplish tasks zero-shot for cell type annotation, batch integration, and conditional cell generation, guided by different task prompts. Also, scMulan is ready to be expanded for novel tasks through finetuning. We have evaluated the effectiveness of scMulan on multiple downstream tasks. As a foundation model, scMulan is pre-trained to capture both the microscopic regulations and macroscopic patterns of gene expression, positioning it as a multifunctional and easily expandable tool for comprehensive single-cell analysis.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
柳柳完成签到 ,获得积分10
1秒前
铁架依然在完成签到,获得积分10
3秒前
7秒前
eth关闭了eth文献求助
16秒前
陈一完成签到,获得积分10
18秒前
李佳伟发布了新的文献求助20
21秒前
南极尽头的鲸完成签到 ,获得积分10
22秒前
强小强努力努力完成签到,获得积分10
22秒前
Boven完成签到,获得积分10
23秒前
优雅的千雁完成签到,获得积分0
26秒前
个性的依玉完成签到 ,获得积分10
29秒前
阿策完成签到,获得积分10
30秒前
新帅完成签到,获得积分10
34秒前
南风完成签到,获得积分10
36秒前
手可摘星辰不去高声语完成签到,获得积分10
38秒前
cdragon完成签到,获得积分10
41秒前
贾明灵完成签到,获得积分10
44秒前
Flowing完成签到,获得积分10
44秒前
生动的沛白完成签到 ,获得积分10
47秒前
小鱼完成签到 ,获得积分10
50秒前
Luna爱科研完成签到 ,获得积分10
53秒前
朱哥永正完成签到,获得积分10
53秒前
枫糖叶落完成签到,获得积分10
57秒前
57秒前
BaoyangTIan完成签到,获得积分10
1分钟前
Ezio_sunhao完成签到,获得积分10
1分钟前
阿辉完成签到 ,获得积分10
1分钟前
俊逸沅发布了新的文献求助30
1分钟前
1分钟前
More应助李佳伟采纳,获得20
1分钟前
奇异果果完成签到 ,获得积分10
1分钟前
胖小羊发布了新的文献求助10
1分钟前
今后应助科研通管家采纳,获得10
1分钟前
1分钟前
西贝完成签到,获得积分20
1分钟前
李佳伟完成签到,获得积分20
1分钟前
王正浩完成签到 ,获得积分10
1分钟前
今天开心吗完成签到 ,获得积分10
1分钟前
1分钟前
陈龙完成签到,获得积分10
1分钟前
高分求助中
论现代体育科学研究的方法学特征 1000
Invited Discussant 63O and 64O 1000
Ideology and Meaning-Making under the Putin Regime 750
Safety Pharmacology 500
《KNN基无铅压电陶瓷电学性能优化与物理机理研究》 500
Petrology and Plate Tectonics 500
A Handbook of User Experience Research & Design in Libraries 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 计算机科学 化学工程 生物化学 物理 内科学 复合材料 催化作用 光电子学 物理化学 电极 细胞生物学 基因 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6913327
求助须知:如何正确求助?哪些是违规求助? 8605226
关于积分的说明 18259761
捐赠科研通 6323723
什么是DOI,文献DOI怎么找? 3067310
关于科研通互助平台的介绍 2094048
邀请新用户注册赠送积分活动 2044623