Large language models generate functional protein sequences across diverse families

蛋白质超家族 计算生物学 蛋白质工程 蛋白质家族 变位酶 功能(生物学) 蛋白质测序 生物 计算机科学 脊索变位酶 序列(生物学) 肽序列 自然语言处理 遗传学 生物化学 氨基酸 基因 苯丙氨酸
作者
Ali Madani,Ben Krause,Eric R. Greene,Subu Subramanian,Benjamin P. Mohr,James M. Holton,J.L. Olmos,Caiming Xiong,Zachary Z. Sun,Richard Socher,James S. Fraser,Nikhil Naik
出处
期刊:Nature Biotechnology [Nature Portfolio]
卷期号:41 (8): 1099-1106 被引量:645
标识
DOI:10.1038/s41587-022-01618-2
摘要

Deep-learning language models have shown promise in various biotechnological applications, including protein design and engineering. Here we describe ProGen, a language model that can generate protein sequences with a predictable function across large protein families, akin to generating grammatically and semantically correct natural language sentences on diverse topics. The model was trained on 280 million protein sequences from >19,000 families and is augmented with control tags specifying protein properties. ProGen can be further fine-tuned to curated sequences and tags to improve controllable generation performance of proteins from families with sufficient homologous samples. Artificial proteins fine-tuned to five distinct lysozyme families showed similar catalytic efficiencies as natural lysozymes, with sequence identity to natural proteins as low as 31.4%. ProGen is readily adapted to diverse protein families, as we demonstrate with chorismate mutase and malate dehydrogenase.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
InfiniteLulu完成签到,获得积分10
刚刚
刚刚
刚刚
林妹妹完成签到 ,获得积分10
刚刚
无花果应助谢家欣采纳,获得30
1秒前
1秒前
超级的乐巧完成签到,获得积分20
3秒前
qfchen0716网易应助李小小采纳,获得20
4秒前
负责的莫茗完成签到,获得积分10
5秒前
慕青应助荷欢笙采纳,获得10
6秒前
乐乐应助小密母采纳,获得10
7秒前
小鱼儿发布了新的文献求助10
7秒前
7秒前
8秒前
量子星尘发布了新的文献求助200
8秒前
FashionBoy应助小郑小郑采纳,获得10
9秒前
9秒前
852应助ZJH采纳,获得10
10秒前
脑洞疼应助keke采纳,获得10
10秒前
小鱼儿发布了新的文献求助10
12秒前
12秒前
可可发布了新的文献求助10
13秒前
13秒前
13秒前
13秒前
qq发布了新的文献求助10
14秒前
qqqqqq完成签到,获得积分10
14秒前
科研通AI2S应助郁金采纳,获得10
14秒前
GG发布了新的文献求助10
15秒前
wendy发布了新的文献求助10
15秒前
黄同学完成签到,获得积分10
15秒前
15秒前
16秒前
orixero应助咕噜咕噜采纳,获得10
16秒前
成就的鲂发布了新的文献求助10
17秒前
饼饼发布了新的文献求助20
18秒前
18秒前
18秒前
qqqqqq发布了新的文献求助10
18秒前
黄同学发布了新的文献求助10
19秒前
高分求助中
(应助此贴封号)【重要!!请各位详细阅读】【科研通的精品贴汇总】 10000
Organic Chemistry 3000
The Netter Collection of Medical Illustrations: Digestive System, Volume 9, Part III - Liver, Biliary Tract, and Pancreas (3rd Edition) 600
International socialism & Australian labour : the Left in Australia, 1919-1939 400
Bulletin de la Societe Chimique de France 400
Assessment of adverse effects of Alzheimer's disease medications: Analysis of notifications to Regional Pharmacovigilance Centers in Northwest France 400
Metals, Minerals, and Society 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4284864
求助须知:如何正确求助?哪些是违规求助? 3812294
关于积分的说明 11941528
捐赠科研通 3458800
什么是DOI,文献DOI怎么找? 1896938
邀请新用户注册赠送积分活动 945544
科研通“疑难数据库(出版商)”最低求助积分说明 849342