Text-Region Matching for Multi-Label Image Recognition with Missing Labels

计算机科学 桥接(联网) 帕斯卡(单位) 人工智能 匹配(统计) 语义学(计算机科学) 水准点(测量) 班级(哲学) 边距(机器学习) 模式识别(心理学) 图像(数学) 可视化 语义鸿沟 自然语言处理 机器学习 图像检索 数学 统计 计算机网络 大地测量学 程序设计语言 地理
作者
Leilei Ma,Hongxing Xie,Lei Wang,Yanping Fu,Dengdi Sun,Haifeng Zhao
标识
DOI:10.1145/3664647.3680815
摘要

Recently, large-scale visual language pre-trained (VLP) models have demonstrated impressive performance across various downstream tasks. Motivated by these advancements, pioneering efforts have emerged in multi-label image recognition with missing labels, leveraging VLP prompt-tuning technology. However, they usually cannot match text and vision features well, due to complicated semantics gaps and missing labels in a multi-label image. To tackle this challenge, we propose $\textbf{T}$ext-$\textbf{R}$egion $\textbf{M}$atching for optimizing $\textbf{M}$ulti-$\textbf{L}$abel prompt tuning, namely TRM-ML, a novel method for enhancing meaningful cross-modal matching. Compared to existing methods, we advocate exploring the information of category-aware regions rather than the entire image or pixels, which contributes to bridging the semantic gap between textual and visual representations in a one-to-one matching manner. Concurrently, we further introduce multimodal contrastive learning to narrow the semantic gap between textual and visual modalities and establish intra-class and inter-class relationships. Additionally, to deal with missing labels, we propose a multimodal category prototype that leverages intra- and inter-category semantic relationships to estimate unknown labels, facilitating pseudo-label generation. Extensive experiments on the MS-COCO, PASCAL VOC, Visual Genome, NUS-WIDE, and CUB-200-211 benchmark datasets demonstrate that our proposed framework outperforms the state-of-the-art methods by a significant margin. Our code is available here: https://github.com/yu-gi-oh-leilei/TRM-ML.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Mine发布了新的文献求助10
刚刚
1秒前
Akim应助怡然花卷采纳,获得10
1秒前
Triaxane应助Fun采纳,获得10
1秒前
烟花应助眯眯眼的老虎采纳,获得10
1秒前
范先生完成签到,获得积分10
1秒前
tulips完成签到 ,获得积分10
2秒前
灰灰喵完成签到 ,获得积分10
2秒前
快快毕业完成签到,获得积分10
2秒前
活泼的面包完成签到,获得积分10
3秒前
song发布了新的文献求助10
3秒前
hii发布了新的文献求助10
4秒前
naplzp完成签到,获得积分10
5秒前
科研鬼才发布了新的文献求助10
5秒前
5秒前
Jasper应助水濑心源采纳,获得10
6秒前
CipherSage应助wang采纳,获得30
6秒前
不困发布了新的文献求助20
6秒前
WizBLue发布了新的文献求助10
7秒前
7秒前
singfluer发布了新的文献求助10
7秒前
量子星尘发布了新的文献求助10
7秒前
任老三完成签到,获得积分10
8秒前
stick完成签到,获得积分10
8秒前
8秒前
8秒前
9秒前
汪汪完成签到,获得积分10
9秒前
彭于彦祖完成签到,获得积分0
9秒前
重要英姑发布了新的文献求助10
9秒前
希望天下0贩的0应助LL采纳,获得10
9秒前
陈陈完成签到,获得积分10
10秒前
10秒前
ding应助雨醉东风采纳,获得10
11秒前
李Sir完成签到,获得积分10
11秒前
kkkklo发布了新的文献求助10
12秒前
12秒前
12秒前
13秒前
13秒前
高分求助中
传播真理奋斗不息——中共中央编译局成立50周年纪念文集 2000
The Oxford Encyclopedia of the History of Modern Psychology 2000
Chinesen in Europa – Europäer in China: Journalisten, Spione, Studenten 1200
Deutsche in China 1920-1950 1200
中共中央编译局成立四十周年纪念册 / 中共中央编译局建局四十周年纪念册 950
Applied Survey Data Analysis (第三版, 2025) 850
Mineral Deposits of Africa (1907-2023): Foundation for Future Exploration 800
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3875820
求助须知:如何正确求助?哪些是违规求助? 3418533
关于积分的说明 10709189
捐赠科研通 3143078
什么是DOI,文献DOI怎么找? 1734158
邀请新用户注册赠送积分活动 836582
科研通“疑难数据库(出版商)”最低求助积分说明 782706