清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Generating functional protein variants with variational autoencoders

序列(生物学) 计算机科学 人工智能 蛋白质测序 功能(生物学) 集合(抽象数据类型) 生成模型 生成语法 模式识别(心理学) 计算生物学 机器学习 肽序列 生物 遗传学 基因 程序设计语言
作者
Alex Hawkins‐Hooker,Florence Depardieu,Sebastien Baur,Guillaume Couairon,Arthur Chen,David Bikard
出处
期刊:PLOS Computational Biology [Public Library of Science]
卷期号:17 (2): e1008736-e1008736 被引量:136
标识
DOI:10.1371/journal.pcbi.1008736
摘要

The vast expansion of protein sequence databases provides an opportunity for new protein design approaches which seek to learn the sequence-function relationship directly from natural sequence variation. Deep generative models trained on protein sequence data have been shown to learn biologically meaningful representations helpful for a variety of downstream tasks, but their potential for direct use in the design of novel proteins remains largely unexplored. Here we show that variational autoencoders trained on a dataset of almost 70000 luciferase-like oxidoreductases can be used to generate novel, functional variants of the luxA bacterial luciferase. We propose separate VAE models to work with aligned sequence input (MSA VAE) and raw sequence input (AR-VAE), and offer evidence that while both are able to reproduce patterns of amino acid usage characteristic of the family, the MSA VAE is better able to capture long-distance dependencies reflecting the influence of 3D structure. To confirm the practical utility of the models, we used them to generate variants of luxA whose luminescence activity was validated experimentally. We further showed that conditional variants of both models could be used to increase the solubility of luxA without disrupting function. Altogether 6/12 of the variants generated using the unconditional AR-VAE and 9/11 generated using the unconditional MSA VAE retained measurable luminescence, together with all 23 of the less distant variants generated by conditional versions of the models; the most distant functional variant contained 35 differences relative to the nearest training set sequence. These results demonstrate the feasibility of using deep generative models to explore the space of possible protein sequences and generate useful variants, providing a method complementary to rational design and directed evolution approaches.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
洋芋饭饭完成签到,获得积分10
7秒前
ys1008完成签到,获得积分10
7秒前
Kelsey完成签到 ,获得积分10
18秒前
22秒前
火鸟发布了新的文献求助10
27秒前
独孤完成签到 ,获得积分10
44秒前
47秒前
徐茂瑜完成签到 ,获得积分10
56秒前
我爱科研完成签到 ,获得积分10
58秒前
lixy完成签到,获得积分10
1分钟前
zhangjianzeng完成签到 ,获得积分10
1分钟前
管靖易完成签到 ,获得积分10
1分钟前
madison完成签到 ,获得积分10
1分钟前
tigger完成签到 ,获得积分10
1分钟前
一路有你完成签到 ,获得积分10
1分钟前
1分钟前
jianguo完成签到,获得积分10
1分钟前
宇文天思完成签到,获得积分10
1分钟前
DrLuffy完成签到 ,获得积分10
1分钟前
心静自然好完成签到 ,获得积分10
1分钟前
kaka完成签到,获得积分0
2分钟前
hejinyin完成签到,获得积分10
2分钟前
传奇3应助Xiyixuan采纳,获得20
2分钟前
Yultuz友完成签到 ,获得积分10
2分钟前
研友_ZG4ml8完成签到 ,获得积分0
2分钟前
坚定龙猫完成签到,获得积分10
2分钟前
南风完成签到 ,获得积分10
2分钟前
zydaphne完成签到 ,获得积分10
2分钟前
devilito完成签到,获得积分10
2分钟前
小巧的柏柳完成签到 ,获得积分10
2分钟前
3分钟前
3分钟前
研友_VZG64n完成签到,获得积分10
3分钟前
3分钟前
3分钟前
zz完成签到 ,获得积分10
3分钟前
疼小钱应助斯文的傲珊采纳,获得10
3分钟前
ww完成签到,获得积分10
3分钟前
赧赧完成签到 ,获得积分10
3分钟前
Orange应助ww采纳,获得30
3分钟前
高分求助中
Les Mantodea de Guyane Insecta, Polyneoptera 2500
Technologies supporting mass customization of apparel: A pilot project 450
A Field Guide to the Amphibians and Reptiles of Madagascar - Frank Glaw and Miguel Vences - 3rd Edition 400
A China diary: Peking 400
Brain and Heart The Triumphs and Struggles of a Pediatric Neurosurgeon 400
Cybersecurity Blueprint – Transitioning to Tech 400
Mixing the elements of mass customisation 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3784835
求助须知:如何正确求助?哪些是违规求助? 3330070
关于积分的说明 10244272
捐赠科研通 3045435
什么是DOI,文献DOI怎么找? 1671691
邀请新用户注册赠送积分活动 800613
科研通“疑难数据库(出版商)”最低求助积分说明 759541