Active learning of molecular data for task-specific objectives

计算机科学 任务(项目管理) 机器学习 聚类分析 数据挖掘 采样(信号处理) 噪音(视频) 人工智能 代表(政治) 政治 滤波器(信号处理) 图像(数学) 政治学 经济 管理 法学 计算机视觉
作者
Kunal Ghosh,Milica Todorović,Aki Vehtari,Patrick Rinke
出处
期刊:Journal of Chemical Physics [American Institute of Physics]
卷期号:162 (1) 被引量:2
标识
DOI:10.1063/5.0229834
摘要

Active learning (AL) has shown promise to be a particularly data-efficient machine learning approach. Yet, its performance depends on the application, and it is not clear when AL practitioners can expect computational savings. Here, we carry out a systematic AL performance assessment for three diverse molecular datasets and two common scientific tasks: compiling compact, informative datasets and targeted molecular searches. We implemented AL with Gaussian processes (GP) and used the many-body tensor as molecular representation. For the first task, we tested different data acquisition strategies, batch sizes, and GP noise settings. AL was insensitive to the acquisition batch size, and we observed the best AL performance for the acquisition strategy that combines uncertainty reduction with clustering to promote diversity. However, for optimal GP noise settings, AL did not outperform the randomized selection of data points. Conversely, for targeted searches, AL outperformed random sampling and achieved data savings of up to 64%. Our analysis provides insight into this task-specific performance difference in terms of target distributions and data collection strategies. We established that the performance of AL depends on the relative distribution of the target molecules in comparison to the total dataset distribution, with the largest computational savings achieved when their overlap is minimal.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
小二郎应助LLL采纳,获得10
刚刚
1秒前
科研通AI6.1应助haotianli采纳,获得10
4秒前
canter发布了新的文献求助10
5秒前
5秒前
6秒前
7秒前
李悟尔发布了新的文献求助10
7秒前
白真帅发布了新的文献求助10
8秒前
苞米粒粒发布了新的文献求助10
10秒前
Xue_wenqiang完成签到,获得积分10
11秒前
11秒前
zjdmw发布了新的文献求助10
11秒前
14秒前
小影发布了新的文献求助10
16秒前
17秒前
玄易完成签到,获得积分10
19秒前
张龙雨完成签到,获得积分10
20秒前
20秒前
木流留马发布了新的文献求助10
21秒前
21秒前
科目三应助我来何忧采纳,获得10
22秒前
Peter完成签到,获得积分10
23秒前
23秒前
25秒前
微笑友容发布了新的文献求助10
25秒前
26秒前
26秒前
小蘑菇应助四时见采纳,获得10
30秒前
flysky120发布了新的文献求助10
30秒前
所所应助qqxt采纳,获得10
31秒前
你快睡吧发布了新的文献求助10
32秒前
舞云涯发布了新的文献求助10
32秒前
白真帅完成签到,获得积分10
33秒前
momo123完成签到 ,获得积分10
33秒前
33秒前
傲娇蜻蜓完成签到,获得积分10
36秒前
haotianli发布了新的文献求助10
37秒前
科目三应助白真帅采纳,获得10
37秒前
高分求助中
Clinical Epidemiology: The Essentials, 6e 10000
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Graphene Handbook (2019 Edition) 800
Adhesion Science: Principles & Practice 800
Signals, Systems, and Signal Processing 610
Fundamentals of Pharmaceutical and Biologics Regulations: A Global Perspective, Second Edition 600
The Immune System (Fifth Edition) 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6568516
求助须知:如何正确求助?哪些是违规求助? 8348024
关于积分的说明 17885565
捐赠科研通 5695723
什么是DOI,文献DOI怎么找? 2944150
邀请新用户注册赠送积分活动 1920062
关于科研通互助平台的介绍 1796244