Leveraging Large Language Models for Metagenomic Analysis

基因组 可解释性 计算机科学 超参数 计算生物学 机器学习 人工智能 数据挖掘 生物 基因 遗传学
作者
Mohammad Saleh Refahi,Bahrad A. Sokhansanj,Gail Rosen
标识
DOI:10.1109/spmb59478.2023.10372773
摘要

Analyzing sequencing data from microbiome experiments is challenging, since samples can contain tens of thousands of unique taxa (and their genes) and populations of millions of cells. Reducing the dimensionality of metagenomic data is a crucial step in improving the interpretability of complex genetic information, as metagenomic datasets typically encompass a wide range of genetic diversity and variations.In this study, we implement RoBERTa, a state-of-the-art large language model, and pre-train it on relatively large genomic datasets to obtain a model that can be used to generate embeddings that can help simplify complex metagenomic data sets. The pre-training process enables RoBERTa to capture the inherent characteristics and patterns present in the genomic sequences. We then evaluate the effectiveness of embeddings generated using the pre-trained RoBERTa model in downstream tasks, with a particular focus on taxonomic classification. To assess whether our method can be generalizable, we conduct extensive downstream analysis on three distinct datasets: 16s rRNA, 28s rRNA, and ITS. By utilizing datasets containing 16S rRNA exclusive to bacteria and eukaryotic mitochondria, as well as datasets containing 28S rRNA and ITS specific to eukaryotes (such as fungi), we were able to assess the performance of RoBERTa embeddings across diverse genomic regions. We tune the RoBERTa model through hyperparameter optimization on each dataset. Our results demonstrate that RoBERTa embeddings exhibit promising results in taxonomic classification compared to conventional methods.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
明理雨兰完成签到,获得积分20
2秒前
owlhealth发布了新的文献求助10
5秒前
美好的天与完成签到,获得积分10
5秒前
s33发布了新的文献求助10
6秒前
ys发布了新的文献求助10
7秒前
TF邓佳鑫应助gyr采纳,获得10
8秒前
Miss应助感性的背包采纳,获得10
8秒前
正霖驳回了Lucas应助
9秒前
yhx完成签到 ,获得积分10
11秒前
田様应助ys采纳,获得10
12秒前
13秒前
13秒前
领导范儿应助外向的南珍采纳,获得10
13秒前
李月完成签到 ,获得积分10
14秒前
16秒前
16秒前
18秒前
whisper发布了新的文献求助10
19秒前
TF邓佳鑫应助gyr采纳,获得10
19秒前
Sean发布了新的文献求助10
20秒前
莫听南发布了新的文献求助30
20秒前
hakuna发布了新的文献求助10
21秒前
8888拉发布了新的文献求助10
23秒前
Cindy应助小乌鸦采纳,获得10
24秒前
25秒前
25秒前
深情寒梦发布了新的文献求助30
26秒前
28秒前
hiahia完成签到,获得积分10
30秒前
雨泽应助jingfeng采纳,获得10
30秒前
Sean完成签到,获得积分10
31秒前
zhelm完成签到,获得积分10
31秒前
des111完成签到,获得积分10
32秒前
猴子先生发布了新的文献求助10
33秒前
33秒前
科目三应助神说要有光采纳,获得10
33秒前
彩色的奄完成签到,获得积分10
35秒前
张佳佳完成签到,获得积分10
35秒前
胡younger米发布了新的文献求助10
35秒前
高分求助中
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 1000
Corrosion and Oxygen Control 600
Yaws' Handbook of Antoine coefficients for vapor pressure 500
Python Programming for Linguistics and Digital Humanities: Applications for Text-Focused Fields 500
行動データの計算論モデリング 強化学習モデルを例として 500
Johann Gottlieb Fichte: Die späten wissenschaftlichen Vorlesungen / IV,1: ›Transzendentale Logik I (1812)‹ 400
The role of families in providing long term care to the frail and chronically ill elderly living in the community 380
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2555718
求助须知:如何正确求助?哪些是违规求助? 2179779
关于积分的说明 5621335
捐赠科研通 1901132
什么是DOI,文献DOI怎么找? 949612
版权声明 565592
科研通“疑难数据库(出版商)”最低求助积分说明 504750