DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence Analysis Tasks

计算机科学 任务(项目管理) 序列(生物学) 安全性令牌 人工智能 机器学习 二元分类 DNA测序 DNA 生物 支持向量机 遗传学 工程类 计算机安全 系统工程
作者
Daoan Zhang,Weitong Zhang,Bing He,Jianguo Zhang,Chenchen Qin,Jianhua Yao
出处
期刊:Cornell University - arXiv 被引量:7
标识
DOI:10.48550/arxiv.2307.05628
摘要

Pre-trained large language models demonstrate potential in extracting information from DNA sequences, yet adapting to a variety of tasks and data modalities remains a challenge. To address this, we propose DNAGPT, a generalized DNA pre-training model trained on over 200 billion base pairs from all mammals. By enhancing the classic GPT model with a binary classification task (DNA sequence order), a numerical regression task (guanine-cytosine content prediction), and a comprehensive token language, DNAGPT can handle versatile DNA analysis tasks while processing both sequence and numerical data. Our evaluation of genomic signal and region recognition, mRNA abundance regression, and artificial genomes generation tasks demonstrates DNAGPT's superior performance compared to existing models designed for specific downstream tasks, benefiting from pre-training using the newly designed model structure.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
机智的小懒虫完成签到 ,获得积分10
4秒前
青木完成签到 ,获得积分10
5秒前
俭朴的一曲完成签到,获得积分10
5秒前
勤恳的TT完成签到 ,获得积分10
7秒前
Gxp完成签到,获得积分10
8秒前
Jeffery426完成签到,获得积分10
9秒前
安安爱阎魔完成签到,获得积分10
12秒前
蓝风铃完成签到 ,获得积分10
13秒前
17秒前
John完成签到 ,获得积分10
19秒前
幽默的太阳完成签到 ,获得积分10
19秒前
航行天下完成签到 ,获得积分10
22秒前
ira发布了新的文献求助10
23秒前
郭达仲完成签到 ,获得积分10
30秒前
NexusExplorer应助毛豆妈妈采纳,获得30
31秒前
鳗鱼不尤完成签到,获得积分10
32秒前
NexusExplorer应助科研通管家采纳,获得10
33秒前
cdercder应助科研通管家采纳,获得10
33秒前
香蕉觅云应助科研通管家采纳,获得10
33秒前
cdercder应助科研通管家采纳,获得10
33秒前
读行千万完成签到,获得积分10
35秒前
123完成签到 ,获得积分10
38秒前
务实青筠完成签到 ,获得积分10
40秒前
感性的寄真完成签到 ,获得积分10
41秒前
研究生完成签到,获得积分10
43秒前
LHL完成签到,获得积分10
46秒前
cdercder应助bx采纳,获得10
47秒前
孤独听雨的猫完成签到 ,获得积分10
48秒前
AXEDW完成签到,获得积分10
52秒前
包子完成签到,获得积分10
56秒前
hahaha完成签到,获得积分10
58秒前
仁和完成签到,获得积分10
59秒前
Wy21完成签到 ,获得积分10
1分钟前
李健的小迷弟应助陈秋采纳,获得10
1分钟前
饱满一手完成签到 ,获得积分10
1分钟前
光亮向雁完成签到 ,获得积分10
1分钟前
1分钟前
Hai完成签到,获得积分10
1分钟前
1分钟前
青天白日完成签到,获得积分10
1分钟前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
ISCN 2024 – An International System for Human Cytogenomic Nomenclature (2024) 3000
Continuum Thermodynamics and Material Modelling 2000
Encyclopedia of Geology (2nd Edition) 2000
105th Edition CRC Handbook of Chemistry and Physics 1600
Maneuvering of a Damaged Navy Combatant 650
the MD Anderson Surgical Oncology Manual, Seventh Edition 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3777699
求助须知:如何正确求助?哪些是违规求助? 3323122
关于积分的说明 10213046
捐赠科研通 3038490
什么是DOI,文献DOI怎么找? 1667412
邀请新用户注册赠送积分活动 798132
科研通“疑难数据库(出版商)”最低求助积分说明 758275