亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

CheMLT-F: multitask learning in biochemistry through transformer fusion

计算机科学 机器学习 模块化设计 工作流程 人工智能 化学空间 判别式 水准点(测量) 编码器 生物信息学 变压器 重新使用 多任务学习 数据挖掘 标记数据 忠诚 训练集 任务(项目管理) 概化理论 药物发现 特征学习 试验台 分布式计算 深度学习 数据流挖掘 架空(工程) 任务分析 数据建模 单点故障 标杆管理 集合预报 监督学习 外推法 合成数据
作者
Vladislav Mun,Siamac Fazli
标识
DOI:10.6084/m9.figshare.c.8501611.v1
摘要

Abstract Drug discovery remains a slow and costly process, in part because efficacy, toxicity, and physicochemical liabilities must be screened across a vast chemical space. Stand-alone, single-task predictors can help, but they lead to fragmented workflows and make it hard to reuse learned representations, data processing, and infrastructure across endpoints (i.e., prediction tasks). Here we present CheMLT-F, a compact multitask transformer that fuses encoders for molecular and protein sequences to learn a unified representation spanning 680+ endpoints, including diverse toxicities, physicochemical properties, and drug–target interactions. Across 13 public benchmarks, CheMLT-F matches state-of-the-art toxicity classifiers and sets new performance marks for physicochemical property prediction, while remaining competitive for drug–target affinity (KIBA and Davis). Moreover, CheMLT-F demonstrates competitive performance on an external protein-family benchmark spanning seven target superfamilies, indicating broad generalizability in bioactivity prediction. Multitask parameter sharing keeps the model lightweight and inference-efficient, and its modular heads make extensions to new endpoints straightforward. By replacing many individual models with a single, extensible backbone, CheMLT-F streamlines in silico screening and lowers the barrier to broad, data-driven decision-making in early drug discovery. Scientific contribution We introduce a unified transformer architecture that jointly models molecular and protein sequences across hundreds of pharmacologically relevant endpoints spanning toxicity, physicochemical properties, and drug–target interactions. A tailored training strategy that combines partial encoder freezing, global–local loss balancing, and weighted task sampling reduces trainable parameters and deployment complexity while preserving strong cross-domain generalization. Comprehensive evaluation across 13 public datasets, including scaffold-aware and random data splits, demonstrates competitive accuracy with substantially lower operational overhead than maintaining numerous single-task models, establishing a scalable foundation for extensible and holistic predictive modeling in computational drug discovery.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
sora98完成签到 ,获得积分0
32秒前
42秒前
47秒前
51秒前
56秒前
科研通AI2S应助科研通管家采纳,获得10
1分钟前
DD完成签到 ,获得积分10
1分钟前
1分钟前
可靠诗筠完成签到 ,获得积分10
1分钟前
2分钟前
2分钟前
2分钟前
北辰一刀流完成签到,获得积分10
2分钟前
2分钟前
丘比特应助大白包子李采纳,获得10
3分钟前
SciGPT应助大白包子李采纳,获得10
3分钟前
领导范儿应助大白包子李采纳,获得10
3分钟前
yw完成签到,获得积分10
3分钟前
KON发布了新的文献求助20
3分钟前
Scorpia112给棱镜的求助进行了留言
4分钟前
朴素傲松完成签到,获得积分10
4分钟前
4分钟前
HFH应助泡椒21采纳,获得10
5分钟前
5分钟前
pqy发布了新的文献求助10
5分钟前
up完成签到,获得积分10
5分钟前
chan完成签到,获得积分10
6分钟前
6分钟前
6分钟前
6分钟前
6分钟前
6分钟前
6分钟前
6分钟前
6分钟前
6分钟前
6分钟前
6分钟前
6分钟前
6分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Developing Genetic Editing Tools for Lysobacter 2000
Моделирование процессов самоорганизации в кристаллообразующих системах 1000
History of U.S. Space Surveillance and Satellite Cataloging 1000
Adhesion Science: Principles & Practice 800
Signals, Systems, and Signal Processing 610
Fundamentals of Pharmaceutical and Biologics Regulations: A Global Perspective, Second Edition 600
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6523073
求助须知:如何正确求助?哪些是违规求助? 8316197
关于积分的说明 17793545
捐赠科研通 5625172
什么是DOI,文献DOI怎么找? 2928132
邀请新用户注册赠送积分活动 1904836
关于科研通互助平台的介绍 1765018