Accurate top protein variant discovery via low-N pick-and-validate machine learning

Boosting(机器学习) 计算机科学 蛋白质工程 机器学习 人工智能 数据挖掘 生物 生物化学
作者
Hoi Yee Chu,John H.C. Fong,Dawn Thean,Peng Zhou,Frederic K. C. Fung,Yuanhua Huang,Alan S.L. Wong
出处
期刊:Cell systems [Elsevier BV]
卷期号:15 (2): 193-203.e6 被引量:2
标识
DOI:10.1016/j.cels.2024.01.002
摘要

A strategy to obtain the greatest number of best-performing variants with least amount of experimental effort over the vast combinatorial mutational landscape would have enormous utility in boosting resource producibility for protein engineering. Toward this goal, we present a simple and effective machine learning-based strategy that outperforms other state-of-the-art methods. Our strategy integrates zero-shot prediction and multi-round sampling to direct active learning via experimenting with only a few predicted top variants. We find that four rounds of low-N pick-and-validate sampling of 12 variants for machine learning yielded the best accuracy of up to 92.6% in selecting the true top 1% variants in combinatorial mutant libraries, whereas two rounds of 24 variants can also be used. We demonstrate our strategy in successfully discovering high-performance protein variants from diverse families including the CRISPR-based genome editors, supporting its generalizable application for solving protein engineering tasks. A record of this paper's transparent peer review process is included in the supplemental information.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
雪维完成签到,获得积分10
刚刚
Starwalker应助qinhuan采纳,获得20
刚刚
plolo完成签到,获得积分10
1秒前
欣喜谷槐发布了新的文献求助10
2秒前
hui关闭了hui文献求助
3秒前
常璐旸发布了新的文献求助10
3秒前
3秒前
4秒前
上官若男应助Loretta采纳,获得10
6秒前
7秒前
某国发布了新的文献求助50
8秒前
10秒前
酶酶酶发布了新的文献求助10
11秒前
dd发布了新的文献求助10
12秒前
852应助QQ采纳,获得10
12秒前
天天快乐应助以利沙采纳,获得10
12秒前
13秒前
14秒前
15秒前
17秒前
cc应助小满采纳,获得20
18秒前
Mininine完成签到 ,获得积分10
18秒前
小马甲应助导师我要读博采纳,获得10
19秒前
小太阳发布了新的文献求助10
19秒前
CodeCraft应助dd采纳,获得10
19秒前
19秒前
7Bao完成签到,获得积分20
20秒前
20秒前
梦初醒处完成签到,获得积分10
21秒前
23秒前
23秒前
以利沙发布了新的文献求助10
24秒前
浪子发布了新的文献求助10
24秒前
25秒前
XXXAAA应助迟迟不吃吃采纳,获得10
25秒前
25秒前
25秒前
开心寻芹关注了科研通微信公众号
26秒前
沙砾完成签到,获得积分10
28秒前
陈翔宇发布了新的文献求助10
29秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Chemistry and Physics of Carbon Volume 18 800
The Organometallic Chemistry of the Transition Metals 800
The formation of Australian attitudes towards China, 1918-1941 640
Signals, Systems, and Signal Processing 610
全相对论原子结构与含时波包动力学的理论研究--清华大学 500
Elevating Next Generation Genomic Science and Technology using Machine Learning in the Healthcare Industry Applied Machine Learning for IoT and Data Analytics 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6443669
求助须知:如何正确求助?哪些是违规求助? 8257473
关于积分的说明 17587094
捐赠科研通 5502370
什么是DOI,文献DOI怎么找? 2900945
邀请新用户注册赠送积分活动 1877987
关于科研通互助平台的介绍 1717534