Get Your Atoms in Order—An Open-Source Implementation of a Novel and Robust Molecular Canonicalization Algorithm

化学信息学 计算机科学 标识符 算法 标准形 Python(编程语言) 分子图 集合(抽象数据类型) 多集 理论计算机科学 化学 软件 图形 数学 生物信息学 离散数学 计算化学 化学 药物发现 纯数学 生物 程序设计语言 操作系统
作者
Nadine Schneider,Roger A. Sayle,Gregory A. Landrum
出处
期刊:Journal of Chemical Information and Modeling [American Chemical Society]
卷期号:55 (10): 2111-2120 被引量:102
标识
DOI:10.1021/acs.jcim.5b00543
摘要

Finding a canonical ordering of the atoms in a molecule is a prerequisite for generating a unique representation of the molecule. The canonicalization of a molecule is usually accomplished by applying some sort of graph relaxation algorithm, the most common of which is the Morgan algorithm. There are known issues with that algorithm that lead to noncanonical atom orderings as well as problems when it is applied to large molecules like proteins. Furthermore, each cheminformatics toolkit or software provides its own version of a canonical ordering, most based on unpublished algorithms, which also complicates the generation of a universal unique identifier for molecules. We present an alternative canonicalization approach that uses a standard stable-sorting algorithm instead of a Morgan-like index. Two new invariants that allow canonical ordering of molecules with dependent chirality as well as those with highly symmetrical cyclic graphs have been developed. The new approach proved to be robust and fast when tested on the 1.45 million compounds of the ChEMBL 20 data set in different scenarios like random renumbering of input atoms or SMILES round tripping. Our new algorithm is able to generate a canonical order of the atoms of protein molecules within a few milliseconds. The novel algorithm is implemented in the open-source cheminformatics toolkit RDKit. With this paper, we provide a reference Python implementation of the algorithm that could easily be integrated in any cheminformatics toolkit. This provides a first step toward a common standard for canonical atom ordering to generate a universal unique identifier for molecules other than InChI.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
苏素肃发布了新的文献求助10
刚刚
AJ只想逛街完成签到,获得积分10
刚刚
1秒前
Draco完成签到,获得积分10
1秒前
寒梅恋雪完成签到,获得积分10
1秒前
mark707完成签到,获得积分10
2秒前
zfamjoy完成签到 ,获得积分10
2秒前
2秒前
3秒前
糍粑完成签到,获得积分10
4秒前
5秒前
惜昭完成签到 ,获得积分10
5秒前
6秒前
苏素肃完成签到,获得积分10
6秒前
江北发布了新的文献求助10
6秒前
cccui完成签到,获得积分10
7秒前
雪晴完成签到,获得积分10
7秒前
TTMMJJ发布了新的文献求助30
7秒前
香蕉觅云应助小刘采纳,获得10
8秒前
韩楠完成签到 ,获得积分10
9秒前
10秒前
土豆完成签到 ,获得积分10
11秒前
木木杉完成签到 ,获得积分10
11秒前
12秒前
领导范儿应助芋圆采纳,获得10
12秒前
量子星尘发布了新的文献求助10
12秒前
89完成签到,获得积分10
12秒前
铱凡完成签到,获得积分10
13秒前
Dd发布了新的文献求助30
14秒前
DongliFeng完成签到 ,获得积分10
14秒前
15秒前
15秒前
16秒前
北纬打工人完成签到,获得积分10
16秒前
wss完成签到 ,获得积分10
16秒前
晚风完成签到,获得积分10
17秒前
陶醉的小海豚完成签到,获得积分10
17秒前
F2022发布了新的文献求助20
17秒前
wocao完成签到 ,获得积分10
17秒前
TS驳回了Zx_1993应助
18秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Encyclopedia of Agriculture and Food Systems Third Edition 2000
Clinical Microbiology Procedures Handbook, Multi-Volume, 5th Edition 临床微生物学程序手册,多卷,第5版 2000
人脑智能与人工智能 1000
King Tyrant 720
Silicon in Organic, Organometallic, and Polymer Chemistry 500
Principles of Plasma Discharges and Materials Processing, 3rd Edition 400
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5600096
求助须知:如何正确求助?哪些是违规求助? 4685826
关于积分的说明 14839777
捐赠科研通 4674981
什么是DOI,文献DOI怎么找? 2538486
邀请新用户注册赠送积分活动 1505659
关于科研通互助平台的介绍 1471124