Hold out the genome: A roadmap to solving the cis-regulatory code

计算生物学 基因组 调节顺序 基因组学 编码(集合论) 生物 基因 序列(生物学) DNA测序 计算机科学 遗传学 基因表达调控 程序设计语言 集合(抽象数据类型)
作者
Carl G. de Boer,Jussi Taipale
标识
DOI:10.1101/2023.04.20.537701
摘要

Abstract Gene expression is regulated by transcription factors that work together to read cis-regulatory DNA sequences. The “cis-regulatory code” - the rules that cells use to determine when, where, and how much genes should be expressed - has proven to be exceedingly complex, but recent advances in the scale and resolution of functional genomics assays and Machine Learning have enabled significant progress towards deciphering this code. However, we will likely never solve the cis-regulatory code if we restrict ourselves to models trained only on genomic sequences; regions of homology can easily lead to overestimation of predictive performance, and there is insufficient sequence diversity in our genomes to learn all relevant parameters. Fortunately, randomly synthesized DNA sequences enable us to test a far larger sequence space than exists in our genomes in each experiment, and designed DNA sequences enable a targeted query of the sequence space to maximally improve the models. Since cells use the same biochemical principles to interpret DNA regardless of its source, models that are trained on these synthetic data can predict genomic activity, often better than genome-trained models. Here, we provide an outlook on the field, and propose a roadmap towards solving the cis-regulatory code by training models exclusively on non-genomic DNA sequences, and using genomic sequences solely for evaluating the resulting models.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
向日葵完成签到,获得积分10
刚刚
天天快乐应助11采纳,获得10
1秒前
1秒前
要减肥的凝琴完成签到,获得积分10
2秒前
欢喜完成签到,获得积分10
4秒前
smile应助可爱的鬼神采纳,获得20
4秒前
4秒前
5秒前
马鑫麟发布了新的文献求助10
6秒前
可爱的函函应助wenge采纳,获得10
6秒前
11完成签到,获得积分10
6秒前
小二郎应助阿鑫采纳,获得10
7秒前
Kevin完成签到,获得积分10
8秒前
鲤鱼梦柳发布了新的文献求助10
10秒前
6k完成签到 ,获得积分10
12秒前
隐形曼青应助等你 下课采纳,获得10
13秒前
纳兰若微应助Dicy采纳,获得10
14秒前
在英快尔完成签到,获得积分10
15秒前
搜集达人应助在英快尔采纳,获得10
18秒前
19秒前
19秒前
草拟大坝应助WSND采纳,获得10
20秒前
THM发布了新的文献求助30
20秒前
等你 下课完成签到,获得积分10
21秒前
21秒前
丘比特应助xiw采纳,获得10
21秒前
23秒前
哭泣的幼蓉完成签到 ,获得积分10
24秒前
等你 下课发布了新的文献求助10
24秒前
kedaya应助Dicy采纳,获得10
25秒前
27秒前
28秒前
29秒前
紫金大萝卜应助鸡蛋灌饼采纳,获得20
30秒前
马鑫麟完成签到,获得积分10
31秒前
hhh完成签到,获得积分20
32秒前
六一儿童节完成签到 ,获得积分10
33秒前
郝绝山完成签到 ,获得积分10
33秒前
动听黎云发布了新的文献求助10
34秒前
JamesPei应助THM采纳,获得10
35秒前
高分求助中
Teaching Social and Emotional Learning in Physical Education 900
Plesiosaur extinction cycles; events that mark the beginning, middle and end of the Cretaceous 800
Recherches Ethnographiques sue les Yao dans la Chine du Sud 500
Two-sample Mendelian randomization analysis reveals causal relationships between blood lipids and venous thromboembolism 500
Chinese-English Translation Lexicon Version 3.0 500
[Lambert-Eaton syndrome without calcium channel autoantibodies] 460
Wisdom, Gods and Literature Studies in Assyriology in Honour of W. G. Lambert 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2393651
求助须知:如何正确求助?哪些是违规求助? 2097685
关于积分的说明 5285817
捐赠科研通 1825232
什么是DOI,文献DOI怎么找? 910127
版权声明 559943
科研通“疑难数据库(出版商)”最低求助积分说明 486400