Enhancing Recognition and Interpretation of Functional Phenotypic Sequences through Fine-Tuning Pre-Trained Genomic Models

人工智能 基因组学 计算机科学 序列(生物学) 计算生物学 DNA测序 构造(python库) 机器学习 基因组 生物 遗传学 基因 程序设计语言
作者
Duo Du,Lei Liu,Fan Zhong
标识
DOI:10.1101/2023.12.05.570173
摘要

Abstract Decoding high-quality human genomic sequences requires comprehensive analysis of DNA sequence functionality. Through computational and experimental approaches, researchers study the genotype-phenotype relationship and generate important datasets that help unravel complicated genetic blueprints. This study explores the use of deep learning, particularly pre-trained models like DNA_bert_6 and human_gpt2-v1, in interpreting and representing human genome sequences. We meticulously construct multiple datasets linking genotypes and phenotypes to fine-tune pre-trained models for precise DNA sequence classification. Furthermore, we specifically focused on the human endogenous retrovirus (HERV) dataset with commendable classification performance (both binary and multi-classification accuracy and F1 values above 0.935 and 0.888, respectively). We evaluate the influence of sequence length on classification results and analyze the impact of feature extraction in the model’s hidden layers using the HERV dataset. To further understand the phenotype-specific patterns learned by the model, we perform enrichment, pathogenicity and conservation analyzes of specific motifs in the HERV sequence with high average local representation weight (LRAW) scores. Overall, the generated datasets further provide numerous additional genotype-phenotype datasets for evaluating the performance of genomic models. The findings highlight the potential of large models in learning DNA sequence representations, particularly when utilizing the HERV dataset, and provide valuable insights for future research. This work represents an innovative strategy that combines pre-trained model representations with classical omics methods for analyzing the functionality of genome sequences, fostering cross-fertilization between genomics and advanced AI. The source code and data are available at https://github.com/GeorgeBGM/Genome_Fine-Tuning .

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
橘猫发布了新的文献求助10
刚刚
1秒前
翊嘉发布了新的文献求助10
1秒前
小崔读研完成签到 ,获得积分10
2秒前
dde举报忘记时间求助涉嫌违规
3秒前
露露完成签到,获得积分10
3秒前
野林完成签到,获得积分10
3秒前
郭志强完成签到,获得积分10
3秒前
迅速的萃发布了新的文献求助10
3秒前
4秒前
4秒前
王行完成签到,获得积分20
4秒前
4秒前
怕黑若翠完成签到,获得积分10
5秒前
CipherSage应助Wzzzz采纳,获得10
6秒前
李子敬发布了新的文献求助10
6秒前
6秒前
所所应助小镇错题家采纳,获得10
7秒前
mj01发布了新的文献求助10
7秒前
alan完成签到,获得积分10
7秒前
丑鸭发布了新的文献求助10
7秒前
8秒前
等待从阳发布了新的文献求助30
8秒前
xxx完成签到,获得积分10
8秒前
bkagyin应助魁梧的火龙果采纳,获得20
8秒前
8秒前
duanpengzhen发布了新的文献求助10
8秒前
王行发布了新的文献求助10
9秒前
小九没烦恼完成签到,获得积分10
9秒前
冻干粉发布了新的文献求助10
9秒前
9秒前
万能图书馆应助云康肖采纳,获得20
9秒前
呼啦啦完成签到,获得积分10
10秒前
10秒前
11秒前
空座位完成签到,获得积分10
11秒前
11秒前
Luu应助XOERMIOY采纳,获得50
12秒前
孤独的根号三完成签到 ,获得积分10
12秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
晶种分解过程与铝酸钠溶液混合强度关系的探讨 8888
Les Mantodea de Guyane Insecta, Polyneoptera 2000
Leading Academic-Practice Partnerships in Nursing and Healthcare: A Paradigm for Change 800
Signals, Systems, and Signal Processing 610
The Sage Handbook of Digital Labour 600
汪玉姣:《金钱与血脉:泰国侨批商业帝国的百年激荡(1850年代-1990年代)》(2025) 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6415501
求助须知:如何正确求助?哪些是违规求助? 8234628
关于积分的说明 17487344
捐赠科研通 5468527
什么是DOI,文献DOI怎么找? 2889128
邀请新用户注册赠送积分活动 1866019
关于科研通互助平台的介绍 1703611