A flaw in using pretrained protein language models in protein–protein interaction inference models

计算机科学 推论 人工智能 背景(考古学) 自然语言处理 任务(项目管理) 语言理解 语言模型 因果推理 泄漏(经济) 机器学习 训练集 利用 序列(生物学) 语音识别 合成数据 实验数据
作者
Joseph Szymborski,Amin Emad
出处
期刊:Nature Machine Intelligence [Nature Portfolio]
卷期号:8 (2): 197-208
标识
DOI:10.1038/s42256-025-01176-7
摘要

With the growing pervasiveness of pretrained protein language models (pLMs), pLM-based methods are increasingly being put forward for the protein–protein interaction (PPI) inference task. Here we identify and confirm that existing pretrained pLMs are a source of data leakage for the downstream PPI task. We characterize the extent of the data leakage problem by training and comparing small and efficient pLMs on a dataset that controls for data leakage (strict) with one that does not (non-strict). Although data leakage from pretrained pLMs cause a measurable inflation of testing scores, we find that this does not necessarily extend to other, non-paired biological tasks such as protein keyword annotation. Further, we find no connection between the context lengths of pLMs and the performance of pLM-based PPI inference methods on proteins with sequence lengths that surpass it. Furthermore, we show that pLM-based and non-pLM-based models fail to generalize in tasks such as prediction of the human-SARS-CoV-2 PPIs or the effect of point mutations on binding affinities. This study demonstrates the importance of extending existing protocols for the evaluation of pLM-based models applied to paired biological datasets and identifies areas of weakness of current pLM models. The usage of pretrained protein language models (pLMs) is rapidly growing. However, Szymborski and Emad find that pretrained pLMs can be a source of data leakage in the task of protein–protein interaction inference, showing inflated performance scores.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
刚刚
招财进宝发布了新的文献求助10
刚刚
香蕉觅云应助陈思奥采纳,获得10
刚刚
xinzhao发布了新的文献求助10
刚刚
轩陵发布了新的文献求助80
1秒前
英勇海完成签到 ,获得积分10
1秒前
2秒前
四七完成签到 ,获得积分10
2秒前
2秒前
了了了完成签到,获得积分10
2秒前
3秒前
Sunny发布了新的文献求助10
3秒前
3秒前
4秒前
4秒前
无花果应助zz采纳,获得10
5秒前
黄家康发布了新的文献求助10
5秒前
5秒前
谦让丹翠发布了新的文献求助10
5秒前
XX发布了新的文献求助10
5秒前
5秒前
愉快的哈密瓜完成签到,获得积分10
5秒前
Polly完成签到,获得积分10
6秒前
6秒前
6秒前
HXX19完成签到 ,获得积分10
6秒前
科研发布了新的文献求助10
6秒前
7秒前
沉静的初露完成签到,获得积分10
7秒前
淡定采波完成签到,获得积分10
7秒前
7秒前
8秒前
我憋不住了完成签到,获得积分10
8秒前
make应助geold采纳,获得10
8秒前
QingCress77完成签到 ,获得积分10
9秒前
李健的小迷弟应助xinzhao采纳,获得10
9秒前
10秒前
穷途之笑发布了新的文献求助10
10秒前
10秒前
高分求助中
Malcolm Fraser : a biography 700
Signals, Systems, and Signal Processing 610
天津市智库成果选编 600
Climate change and sports: Statistics report on climate change and sports 500
Forced degradation and stability indicating LC method for Letrozole: A stress testing guide 500
Organic Reactions Volume 118 400
A Foreign Missionary on the Long March: The Unpublished Memoirs of Arnolis Hayman of the China Inland Mission 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6460759
求助须知:如何正确求助?哪些是违规求助? 8269434
关于积分的说明 17627564
捐赠科研通 5530834
什么是DOI,文献DOI怎么找? 2906292
邀请新用户注册赠送积分活动 1883097
关于科研通互助平台的介绍 1728671