NMRMind: A Transformer-Based Model Enabling the Elucidation from Multidimensional NMR to Structures

化学 化学空间 表征(材料科学) 化学位移 核磁共振谱数据库 核磁共振波谱 集合(抽象数据类型) 数据集 生物系统 二维核磁共振波谱 分子 水准点(测量) 计算化学 质子核磁共振 实验数据 化学结构 核磁共振晶体学 碳-13核磁共振 空格(标点符号) 化学物理 生成模型 量子化学 纳米技术 任务(项目管理) 谱线 小分子 组合化学 共振(粒子物理)
作者
Xi Xue,Hanyu Sun,Jingying Sun,Luc Patiny,Xiangying Liu,Kai Chen,Jingjie Yan,Liangning Li,Xue Liu,Shu Xu,Dongming Zhang,Yafeng Deng,Yingda Zang,Ya‐Ling Gong,Jie Ma,Xiaojian Wang
出处
期刊:Analytical Chemistry [American Chemical Society]
卷期号:97 (41): 22603-22614 被引量:1
标识
DOI:10.1021/acs.analchem.5c03783
摘要

Nuclear magnetic resonance (NMR) data provides rich quantum information on molecular structure, which is closely related to chemical structure and widely used for structural characterization in chemical discovery. Despite substantial advances in spectral analysis techniques, few existing models have demonstrated satisfactory performance in accurate NMR interpretation. Herein, we introduce NMRMind, a Transformer-based generative framework that directly elucidates molecular structures from NMR spectral data. NMRMind was pretrained on a data set comprising 45 million 1D NMR spectra and subsequently fine-tuned on a self-curated benchmark consisting of 2.2 million 1D and 2D NMR spectra. Using a mixed-modality dropout strategy during training, NMRMind achieved excellent performance, attaining a Top-1 accuracy of 92.07% across all input conditions on the structure elucidation task with a speed of <0.05 s per elucidation. Additionally, NMRMind maintained a Top-1 accuracy of 85.10% when only one-dimensional and two-dimensional NMR data were used as input, without considering molecular formulas or fragments. Moreover, the application of NMRMind facilitated the discovery of six previously uncharacterized natural products from Magnolia officinalis and successfully elucidated the structures of six unexpected products resulting from synthetic reactions, thereby expanding the accessible chemical space and providing novel insights into chemical mechanisms. These results demonstrate that NMRMind is a powerful and generalizable platform for chemistry research.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
1秒前
今后应助777采纳,获得10
1秒前
Yinbo完成签到,获得积分10
4秒前
emoji完成签到,获得积分10
4秒前
4秒前
红白刀向前冲完成签到,获得积分10
4秒前
友好如松发布了新的文献求助10
4秒前
粗心的羽毛应助叶子采纳,获得10
5秒前
5秒前
吕磊发布了新的文献求助30
6秒前
ZJL发布了新的文献求助10
6秒前
sandy发布了新的文献求助10
6秒前
6秒前
李健应助EZ采纳,获得10
7秒前
7秒前
Yinbo发布了新的文献求助10
7秒前
我喜欢大学霸完成签到,获得积分10
9秒前
9秒前
今后应助活力的丸子采纳,获得10
10秒前
科研通AI6.3应助苏苏采纳,获得10
10秒前
elizabath完成签到,获得积分10
10秒前
11秒前
12秒前
不是sf完成签到,获得积分10
12秒前
虚心碧发布了新的文献求助10
12秒前
依依完成签到,获得积分10
13秒前
13秒前
14秒前
吵吵robot完成签到,获得积分10
14秒前
大海完成签到,获得积分10
14秒前
碧蓝天晴完成签到,获得积分10
14秒前
mo完成签到,获得积分20
14秒前
852应助Ice采纳,获得10
15秒前
科研通AI6.3应助AA采纳,获得10
15秒前
欧阳同志完成签到 ,获得积分10
15秒前
青木发布了新的文献求助10
16秒前
EZ完成签到,获得积分10
16秒前
16秒前
16秒前
高分求助中
Adhesion Science: Principles & Practice 1234
Signals, Systems, and Signal Processing 610
The Resilient Mindset 400
Impact of Storage Orientation and Duration on Prefilled Syringe Performance: Break-Loose and Glide Forces, and Injection Time Across Multiple Time Points 360
Programming for Chemical Engineers Using C, C++, and MATLAB 300
Upland Kenya wild flowers and ferns: a flora of the flowers, ferns, grasses, and sedges of highland Kenya 300
Disturbing the Quiet Life? Competition and CEO Incentives 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6653714
求助须知:如何正确求助?哪些是违规求助? 8407129
关于积分的说明 17976326
捐赠科研通 5849822
什么是DOI,文献DOI怎么找? 2972039
邀请新用户注册赠送积分活动 1947628
关于科研通互助平台的介绍 1868581