Mol2vec: Unsupervised Machine Learning Approach with Chemical Intuition

文字2vec 人工智能 计算机科学 特征向量 无监督学习 支持向量机 向量空间 化学空间 特征学习 模式识别(心理学) 机器学习 数学 药物发现 嵌入 化学 生物化学 几何学
作者
Sabrina Jaeger-Honz,Simone Fulle,Samo Turk
出处
期刊:Journal of Chemical Information and Modeling [American Chemical Society]
卷期号:58 (1): 27-35 被引量:607
标识
DOI:10.1021/acs.jcim.7b00616
摘要

Inspired by natural language processing techniques, we here introduce Mol2vec, which is an unsupervised machine learning approach to learn vector representations of molecular substructures. Like the Word2vec models, where vectors of closely related words are in close proximity in the vector space, Mol2vec learns vector representations of molecular substructures that point in similar directions for chemically related substructures. Compounds can finally be encoded as vectors by summing the vectors of the individual substructures and, for instance, be fed into supervised machine learning approaches to predict compound properties. The underlying substructure vector embeddings are obtained by training an unsupervised machine learning approach on a so-called corpus of compounds that consists of all available chemical matter. The resulting Mol2vec model is pretrained once, yields dense vector representations, and overcomes drawbacks of common compound feature representations such as sparseness and bit collisions. The prediction capabilities are demonstrated on several compound property and bioactivity data sets and compared with results obtained for Morgan fingerprints as a reference compound representation. Mol2vec can be easily combined with ProtVec, which employs the same Word2vec concept on protein sequences, resulting in a proteochemometric approach that is alignment-independent and thus can also be easily used for proteins with low sequence similarities.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
大模型应助HUYAOWEI采纳,获得10
刚刚
GuoSiqi72发布了新的文献求助10
刚刚
有钱完成签到,获得积分10
刚刚
草莓奶冻完成签到,获得积分10
刚刚
YYY发布了新的文献求助10
1秒前
HeAuBook举报有机卡拉米求助涉嫌违规
1秒前
量子星尘发布了新的文献求助150
1秒前
记录吐吐发布了新的文献求助10
1秒前
2秒前
自然的霸发布了新的文献求助10
2秒前
2秒前
3秒前
星海发布了新的文献求助10
3秒前
LinlinZhang应助cjjcdt采纳,获得10
3秒前
小凯发布了新的文献求助10
4秒前
zzzz发布了新的文献求助10
4秒前
lingluo完成签到,获得积分10
5秒前
5秒前
liu发布了新的文献求助10
5秒前
大模型应助ZT采纳,获得10
6秒前
zzuli_liu完成签到,获得积分10
6秒前
yian发布了新的文献求助10
7秒前
7秒前
Dou完成签到,获得积分10
8秒前
22222发布了新的文献求助10
8秒前
10秒前
12秒前
量子星尘发布了新的文献求助10
12秒前
12秒前
隐形曼青应助JM采纳,获得10
12秒前
小粽子完成签到,获得积分10
14秒前
情怀应助mmyhn采纳,获得10
14秒前
wwtt发布了新的文献求助10
15秒前
笑一笑发布了新的文献求助10
15秒前
燕子应助Floating采纳,获得10
15秒前
16秒前
16秒前
小琴子关注了科研通微信公众号
16秒前
16秒前
田様应助医无止境采纳,获得10
16秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
A novel angiographic index for predicting the efficacy of drug-coated balloons in small vessels 500
Textbook of Neonatal Resuscitation ® 500
The Affinity Designer Manual - Version 2: A Step-by-Step Beginner's Guide 500
Affinity Designer Essentials: A Complete Guide to Vector Art: Your Ultimate Handbook for High-Quality Vector Graphics 500
Optimisation de cristallisation en solution de deux composés organiques en vue de leur purification 500
MARCH'S ADVANCED ORGANIC CHEMISTRY REACTIONS, MECHANISMS, AND STRUCTURE 400
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 5085156
求助须知:如何正确求助?哪些是违规求助? 4301518
关于积分的说明 13403805
捐赠科研通 4126099
什么是DOI,文献DOI怎么找? 2259759
邀请新用户注册赠送积分活动 1263884
关于科研通互助平台的介绍 1198092