Sequence modeling and design from molecular to genome scale with Evo

计算生物学 清脆的 基因组学 合成生物学 基因组 功能(生物学) DNA测序 生物 计算机科学 遗传学 基因
作者
Éric Nguyen,Michael Poli,Matthew G. Durrant,Armin W. Thomas,Brian Kang,Jeremy A. Sullivan,Madelena Y. Ng,Ashley Lewis,Aman Patel,Aaron Lou,Stefano Ermon,Stephen A. Baccus,Tina Hernandez‐Boussard,Christopher Ré,Patrick D. Hsu,Brian Hie
标识
DOI:10.1101/2024.02.27.582234
摘要

The genome is a sequence that completely encodes the DNA, RNA, and proteins that orchestrate the function of a whole organism. Advances in machine learning combined with massive datasets of whole genomes could enable a biological foundation model that accelerates the mechanistic understanding and generative design of complex molecular interactions. We report Evo, a genomic foundation model that enables prediction and generation tasks from the molecular to genome scale. Using an architecture based on advances in deep signal processing, we scale Evo to 7 billion parameters with a context length of 131 kilobases (kb) at single-nucleotide, byte resolution. Trained on whole prokaryotic genomes, Evo can generalize across the three fundamental modalities of the central dogma of molecular biology to perform zero-shot function prediction that is competitive with, or outperforms, leading domain-specific language models. Evo also excels at multi-element generation tasks, which we demonstrate by generating synthetic CRISPR-Cas molecular complexes and entire transposable systems for the first time. Using information learned over whole genomes, Evo can also predict gene essentiality at nucleotide resolution and can generate coding-rich sequences up to 650 kb in length, orders of magnitude longer than previous methods. Advances in multi-modal and multi-scale learning with Evo provides a promising path toward improving our understanding and control of biology across multiple levels of complexity.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
无情修杰完成签到 ,获得积分10
3秒前
诸葛烤鸭完成签到,获得积分10
4秒前
vivi完成签到 ,获得积分10
4秒前
6秒前
潇潇雨歇发布了新的文献求助10
6秒前
8秒前
wqq完成签到,获得积分10
8秒前
杨。。完成签到 ,获得积分10
9秒前
10秒前
11秒前
科研通AI5应助moufei采纳,获得10
11秒前
丘比特应助研友_89Nm7L采纳,获得10
11秒前
lhtyzcg完成签到,获得积分10
12秒前
潇潇雨歇发布了新的文献求助10
13秒前
希望天下0贩的0应助ZW采纳,获得10
13秒前
欣喜的代容完成签到 ,获得积分10
13秒前
wqq发布了新的文献求助10
14秒前
调皮寒凝发布了新的文献求助10
15秒前
徐若楠发布了新的文献求助10
16秒前
十一完成签到,获得积分10
16秒前
潇潇雨歇发布了新的文献求助10
20秒前
20秒前
今后应助tian采纳,获得10
20秒前
s橙子味日出_完成签到 ,获得积分20
20秒前
Seagull发布了新的文献求助10
24秒前
温婉的凝丹完成签到 ,获得积分10
25秒前
s橙子味日出_关注了科研通微信公众号
26秒前
28秒前
啊啊完成签到,获得积分10
33秒前
33秒前
donghai发布了新的文献求助10
35秒前
李健应助Ca采纳,获得10
35秒前
hhh发布了新的文献求助10
36秒前
39秒前
orixero应助啦啦啦采纳,获得10
39秒前
zrs发布了新的文献求助10
41秒前
42秒前
阎万怨完成签到 ,获得积分10
43秒前
大模型应助Pepsi采纳,获得10
44秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
ISCN 2024 – An International System for Human Cytogenomic Nomenclature (2024) 3000
Continuum Thermodynamics and Material Modelling 2000
Encyclopedia of Geology (2nd Edition) 2000
105th Edition CRC Handbook of Chemistry and Physics 1600
Maneuvering of a Damaged Navy Combatant 650
Fashion Brand Visual Design Strategy Based on Value Co-creation 350
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3777911
求助须知:如何正确求助?哪些是违规求助? 3323444
关于积分的说明 10214462
捐赠科研通 3038671
什么是DOI,文献DOI怎么找? 1667606
邀请新用户注册赠送积分活动 798207
科研通“疑难数据库(出版商)”最低求助积分说明 758304