亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Scaling Large Language Models for Next-Generation Single-Cell Analysis

缩放比例 计算机科学 数学 几何学
作者
Syed Asad Rizvi,Daniel Lévine,Aakash Patel,Shiyang Zhang,Eric Wang,Sizhuang He,David Zhang,Cerise Tang,Zhihui Lyu,Rayyan Darji,Chang Li,Emily Sun,Dong Kee Jeong,Ling Zhao,Jennifer M. Kwan,David A. Braun,Brian P. Hafler,Jeffrey J. Ishizuka,Rahul M. Dhodapkar,Hattie Chung
标识
DOI:10.1101/2025.04.14.648850
摘要

ABSTRACT Single-cell RNA sequencing has transformed our understanding of cellular diversity, yet current single-cell foundation models (scFMs) remain limited in their scalability, flexibility across diverse tasks, and ability to natively integrate textual information. In this work, we build upon the Cell2Sentence (C2S) framework, which represents scRNA-seq profiles as textual “cell sentences,” to train Large Language Models (LLMs) on a corpus comprising over one billion tokens of transcriptomic data, biological text, and metadata. By scaling model size to 27 billion parameters, we observe consistent improvements in predictive and generative capabilities, as well as the capacity for advanced downstream tasks requiring synthesis of information across multicellular contexts. Through targeted fine-tuning supported by modern reinforcement learning techniques, our approach excels in tasks such as perturbation response prediction, natural language interpretation, and complex biological reasoning. By unifying transcriptomic and textual data at unprecedented scales, this approach not only surpasses both specialized single-cell models and general-purpose LLMs, but also establishes a powerful platform for next-generation single-cell analysis, paving the way for the development of “virtual cells.”

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
10秒前
12秒前
大模型应助科研通管家采纳,获得10
12秒前
求学发布了新的文献求助10
15秒前
22秒前
13656479046完成签到,获得积分10
23秒前
13656479046发布了新的文献求助30
25秒前
贪玩的万仇完成签到 ,获得积分10
26秒前
共享精神应助求学采纳,获得10
41秒前
求学完成签到,获得积分10
48秒前
syalonyui完成签到,获得积分10
1分钟前
完美世界应助明理珩采纳,获得10
1分钟前
2分钟前
明理珩发布了新的文献求助10
2分钟前
2分钟前
2分钟前
明理珩发布了新的文献求助10
2分钟前
2分钟前
明理珩发布了新的文献求助10
2分钟前
彭于晏应助明理珩采纳,获得10
2分钟前
步念发布了新的文献求助10
2分钟前
2分钟前
2分钟前
2分钟前
彩色不评完成签到,获得积分10
2分钟前
明理珩发布了新的文献求助10
2分钟前
彩色不评发布了新的文献求助10
2分钟前
2分钟前
2分钟前
上官若男应助明理珩采纳,获得80
2分钟前
传奇3应助明理珩采纳,获得30
2分钟前
2分钟前
3分钟前
超帅的开山完成签到 ,获得积分10
3分钟前
3分钟前
明理珩发布了新的文献求助30
3分钟前
3分钟前
小妮子完成签到,获得积分10
3分钟前
明理珩发布了新的文献求助80
3分钟前
fishss完成签到 ,获得积分0
3分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Clinical Microbiology Procedures Handbook, Multi-Volume, 5th Edition 临床微生物学程序手册,多卷,第5版 2000
人脑智能与人工智能 1000
King Tyrant 720
Silicon in Organic, Organometallic, and Polymer Chemistry 500
Principles of Plasma Discharges and Materials Processing, 3rd Edition 400
El poder y la palabra: prensa y poder político en las dictaduras : el régimen de Franco ante la prensa y el periodismo 400
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5603317
求助须知:如何正确求助?哪些是违规求助? 4688370
关于积分的说明 14853492
捐赠科研通 4690132
什么是DOI,文献DOI怎么找? 2540639
邀请新用户注册赠送积分活动 1507001
关于科研通互助平台的介绍 1471609