Diffusion Language Models Are Versatile Protein Learners

扩散 计算机科学 语言学 物理 哲学 热力学
作者
Xinyou Wang,Zaixiang Zheng,Fei Ye,Dongyu Xue,Shujian Huang,Quanquan Gu
出处
期刊:Cornell University - arXiv 被引量:4
标识
DOI:10.48550/arxiv.2402.18567
摘要

This paper introduces diffusion protein language model (DPLM), a versatile protein language model that demonstrates strong generative and predictive capabilities for protein sequences. We first pre-train scalable DPLMs from evolutionary-scale protein sequences within a generative self-supervised discrete diffusion probabilistic framework, which generalizes language modeling for proteins in a principled way. After pre-training, DPLM exhibits the ability to generate structurally plausible, novel, and diverse protein sequences for unconditional generation. We further demonstrate the proposed diffusion generative pre-training makes DPLM possess a better understanding of proteins, making it a superior representation learner, which can be fine-tuned for various predictive tasks, comparing favorably to ESM2 (Lin et al., 2022). Moreover, DPLM can be tailored for various needs, which showcases its prowess of conditional generation in several ways: (1) conditioning on partial peptide sequences, e.g., generating scaffolds for functional motifs with high success rate; (2) incorporating other modalities as conditioner, e.g., structure-conditioned generation for inverse folding; and (3) steering sequence generation towards desired properties, e.g., satisfying specified secondary structures, through a plug-and-play classifier guidance. Code is released at \url{https://github.com/bytedance/dplm}.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
lll完成签到 ,获得积分10
刚刚
1秒前
Overlap发布了新的文献求助10
1秒前
珠珠发布了新的文献求助10
2秒前
杠杠发布了新的文献求助10
2秒前
Coco不爱笑完成签到,获得积分20
3秒前
英俊的铭应助出山采纳,获得10
3秒前
4秒前
oiu发布了新的文献求助10
4秒前
4秒前
Netsky发布了新的文献求助10
5秒前
5秒前
native完成签到,获得积分10
5秒前
5秒前
6秒前
田様应助superwori采纳,获得10
6秒前
研友_VZG7GZ应助自信的丁真采纳,获得10
9秒前
炙热含玉完成签到,获得积分10
9秒前
岳普发布了新的文献求助10
10秒前
10秒前
青芥发布了新的文献求助10
11秒前
语秋发布了新的文献求助10
11秒前
JamesPei应助杠杠采纳,获得10
11秒前
11秒前
小熊发布了新的文献求助10
12秒前
传奇3应助邵小庆采纳,获得10
12秒前
12秒前
13秒前
小付发布了新的文献求助10
13秒前
aw完成签到,获得积分10
14秒前
赘婿应助可耐的豪英采纳,获得10
14秒前
冯老三完成签到,获得积分10
15秒前
wf发布了新的文献求助30
15秒前
NNUsusan发布了新的文献求助20
16秒前
故意的乐菱完成签到 ,获得积分20
16秒前
英吉利25发布了新的文献求助10
16秒前
Olsters完成签到,获得积分0
16秒前
翼骜发布了新的文献求助10
16秒前
17秒前
田様应助卢本伟采纳,获得50
17秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Organometallic Chemistry of the Transition Metals 800
Chemistry and Physics of Carbon Volume 18 800
The Organometallic Chemistry of the Transition Metals 800
Leading Academic-Practice Partnerships in Nursing and Healthcare: A Paradigm for Change 800
The formation of Australian attitudes towards China, 1918-1941 640
Signals, Systems, and Signal Processing 610
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6435405
求助须知:如何正确求助?哪些是违规求助? 8250185
关于积分的说明 17548110
捐赠科研通 5493725
什么是DOI,文献DOI怎么找? 2897694
邀请新用户注册赠送积分活动 1874249
关于科研通互助平台的介绍 1715370