HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution

基因组学 背景(考古学) 基因组 计算机科学 计算生物学 生物 遗传学 基因 古生物学
作者
Éric Nguyen,Michael Poli,Marjan Faizi,Armin W. Thomas,C. J. Birch-sykes,Michael Wornow,Aman Patel,Clayton M. Rabideau,Stefano Massaroli,Yoshua Bengio,Stefano Ermon,Stephen A. Baccus,Chris Ré
出处
期刊:Cornell University - arXiv 被引量:141
标识
DOI:10.48550/arxiv.2306.15794
摘要

Genomic (DNA) sequences encode an enormous amount of information for gene regulation and protein synthesis. Similar to natural language models, researchers have proposed foundation models in genomics to learn generalizable features from unlabeled genome data that can then be fine-tuned for downstream tasks such as identifying regulatory elements. Due to the quadratic scaling of attention, previous Transformer-based genomic models have used 512 to 4k tokens as context (<0.001% of the human genome), significantly limiting the modeling of long-range interactions in DNA. In addition, these methods rely on tokenizers or fixed k-mers to aggregate meaningful DNA units, losing single nucleotide resolution where subtle genetic variations can completely alter protein function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a large language model based on implicit convolutions was shown to match attention in quality while allowing longer context lengths and lower time complexity. Leveraging Hyena's new long-range capabilities, we present HyenaDNA, a genomic foundation model pretrained on the human reference genome with context lengths of up to 1 million tokens at the single nucleotide-level - an up to 500x increase over previous dense attention-based models. HyenaDNA scales sub-quadratically in sequence length (training up to 160x faster than Transformer), uses single nucleotide tokens, and has full global context at each layer. We explore what longer context enables - including the first use of in-context learning in genomics. On fine-tuned benchmarks from the Nucleotide Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 18 datasets using a model with orders of magnitude less parameters and pretraining data. On the GenomicBenchmarks, HyenaDNA surpasses SotA on 7 of 8 datasets on average by +10 accuracy points. Code at https://github.com/HazyResearch/hyena-dna.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
秋雨梧桐叶落时完成签到,获得积分10
1秒前
刘佳慧完成签到 ,获得积分10
1秒前
dd发布了新的文献求助10
2秒前
花生酱发布了新的文献求助10
2秒前
康康发布了新的文献求助10
3秒前
3秒前
4秒前
4秒前
量子星尘发布了新的文献求助10
6秒前
共享精神应助xiankanyun采纳,获得30
7秒前
zx完成签到,获得积分10
7秒前
严饭饭完成签到 ,获得积分10
7秒前
Y2024完成签到,获得积分10
7秒前
Yusuf18完成签到,获得积分10
8秒前
将个烂就发布了新的文献求助10
8秒前
流风发布了新的文献求助10
8秒前
9秒前
吃瓜群众完成签到,获得积分10
9秒前
铱凡完成签到,获得积分10
10秒前
11秒前
cici完成签到 ,获得积分10
12秒前
12秒前
12秒前
12秒前
lll完成签到 ,获得积分10
13秒前
shirleen发布了新的文献求助10
13秒前
可爱的函函应助将个烂就采纳,获得10
14秒前
14秒前
动听锦程发布了新的文献求助10
14秒前
14秒前
5709xx完成签到 ,获得积分10
14秒前
15秒前
16秒前
张世成发布了新的文献求助10
16秒前
lanlan发布了新的文献求助30
17秒前
18秒前
深情安青应助橙汁采纳,获得10
19秒前
bjutbaibai发布了新的文献求助10
20秒前
动听锦程完成签到,获得积分20
20秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
人脑智能与人工智能 1000
理系総合のための生命科学 第5版〜分子・細胞・個体から知る“生命"のしくみ 800
普遍生物学: 物理に宿る生命、生命の紡ぐ物理 800
花の香りの秘密―遺伝子情報から機能性まで 800
King Tyrant 720
Silicon in Organic, Organometallic, and Polymer Chemistry 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5606135
求助须知:如何正确求助?哪些是违规求助? 4690648
关于积分的说明 14864859
捐赠科研通 4704180
什么是DOI,文献DOI怎么找? 2542486
邀请新用户注册赠送积分活动 1508004
关于科研通互助平台的介绍 1472217