MolRoPE-BERT: An enhanced molecular representation with Rotary Position Embedding for molecular property prediction

计算机科学 嵌入 编码 财产(哲学) 人工智能 化学 判别式 职位(财务) 代表(政治) 深度学习 药物发现 机器学习 自然语言处理 化学 基因 财务 认识论 哲学 政治 经济 生物化学 法学 政治学
作者
Yunwu Liu,Ruisheng Zhang,Tongfeng Li,Jing Jiang,Jun Ma,Ping Wang
出处
期刊:Journal of Molecular Graphics & Modelling [Elsevier]
卷期号:118: 108344-108344 被引量:6
标识
DOI:10.1016/j.jmgm.2022.108344
摘要

Molecular property prediction is a significant task in drug discovery. Most deep learning-based computational methods either develop unique chemical representation or combine complex model. However, researchers are less concerned with the possible advantages of enormous quantities of unlabeled molecular data. Since the obvious limited amount of labeled data available, this task becomes more difficult. In some senses, SMILES of the drug molecule may be regarded of as a language for chemistry, taking inspiration from natural language processing research and current advances in pretrained models. In this paper, we incorporated Rotary Position Embedding(RoPE) efficiently encode the position information of SMILES sequences, ultimately enhancing the capability of the BERT pretrained model to extract potential molecular substructure information for molecular property prediction. We proposed the MolRoPE-BERT framework, an new end-to-end deep learning framework that integrates an efficient position coding approach for capturing sequence position information with a pretrained BERT model for molecular property prediction. To generate useful molecular substructure embeddings, we first exclusively train the MolRoPE-BERT on four million unlabeled drug SMILES(i.e., ZINC 15 and ChEMBL 27). Then, we conduct a series of experiments to evaluate the performance of our proposed MolRoPE-BERT on four well-studied datasets. Compared with conventional and state-of-the-art baselines, our experiment demonstrated comparable or superior performance.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
zyf发布了新的文献求助10
刚刚
orixero应助Li采纳,获得10
刚刚
数羊冠军发布了新的文献求助10
1秒前
王灿灿完成签到,获得积分10
1秒前
raphina发布了新的文献求助10
2秒前
2秒前
Cccrik完成签到,获得积分10
2秒前
木mu发布了新的文献求助10
2秒前
2秒前
pope发布了新的文献求助10
3秒前
于鱼发布了新的文献求助10
3秒前
月亮moon完成签到,获得积分10
3秒前
Zerocola完成签到,获得积分10
3秒前
王灿灿发布了新的文献求助10
4秒前
zyf完成签到,获得积分10
4秒前
慕青应助爱撒娇的长颈鹿采纳,获得10
5秒前
罗_应助库小里orzz采纳,获得10
5秒前
edddyor完成签到,获得积分10
5秒前
5秒前
瘦瘦的送终关注了科研通微信公众号
6秒前
坦率的晓灵完成签到,获得积分10
6秒前
AAA发布了新的文献求助10
8秒前
不喝咖啡会死完成签到 ,获得积分10
10秒前
充电宝应助忧伤的元菱采纳,获得10
10秒前
11秒前
zzz完成签到,获得积分10
11秒前
Owen应助HUMBLE采纳,获得10
11秒前
今夜无人入眠完成签到,获得积分20
12秒前
qingfeng发布了新的文献求助20
12秒前
12秒前
liv应助于鱼采纳,获得10
12秒前
liv应助nannan626采纳,获得10
12秒前
13秒前
13秒前
yoyo20012623完成签到,获得积分10
14秒前
14秒前
15秒前
Adian完成签到,获得积分10
16秒前
17秒前
wuxiaojiao发布了新的文献求助10
17秒前
高分求助中
The three stars each : the Astrolabes and related texts 1070
Manual of Clinical Microbiology, 4 Volume Set (ASM Books) 13th Edition 1000
Sport in der Antike 800
Aspect and Predication: The Semantics of Argument Structure 666
De arte gymnastica. The art of gymnastics 600
少脉山油柑叶的化学成分研究 530
Sport in der Antike Hardcover – March 1, 2015 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2409184
求助须知:如何正确求助?哪些是违规求助? 2105193
关于积分的说明 5316267
捐赠科研通 1832665
什么是DOI,文献DOI怎么找? 913174
版权声明 560733
科研通“疑难数据库(出版商)”最低求助积分说明 488255