已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Cross-modal Guided Visual Representation Learning for Social Image Retrieval

人工智能 计算机科学 情态动词 计算机视觉 代表(政治) 图像检索 模式识别(心理学) 图像(数学) 政治学 政治 化学 高分子化学 法学
作者
Ziyu Guan,Wanqing Zhao,Hongmin Liu,Yuta Nakashima,Noboru Babaguchi,Xiaofei He
出处
期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence [IEEE Computer Society]
卷期号:47 (3): 2186-2198
标识
DOI:10.1109/tpami.2024.3519112
摘要

Social images are often associated with rich but noisy tags from community contributions. Although social tags can potentially provide valuable semantic training information for image retrieval, existing studies all fail to effectively filter noises by exploiting the cross-modal correlation between image content and tags. The current cross-modal vision-and-language representation learning methods, which selectively attend to the relevant parts of the image and text, show a promising direction. However, they are not suitable for social image retrieval since: (1) they deal with natural text sequences where the relationships between words can be easily captured by language models for cross-modal relevance estimation, while the tags are isolated and noisy; (2) they take (image, text) pair as input, and consequently cannot be employed directly for unimodal social image retrieval. This paper tackles the challenge of utilizing cross-modal interactions to learn precise representations for unimodal retrieval. The proposed framework, dubbed CGVR (Cross-modal Guided Visual Representation), extracts accurate semantic representations of images from noisy tags and transfers this ability to image-only hashing subnetwork by a carefully designed training scheme. To well capture correlated semantics and filter noises, it embeds a priori common-sense relationship among tags into attention computation for joint awareness of textual and visual context. Experiments show that CGVR achieves approximately 8.82 and 5.45 points improvement in MAP over the state-of-the-art on two widely used social image benchmarks. CGVR can serve as a new baseline for the image retrieval community. The code is provided at https://github.com/zhaowanqing/CGVR.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
marketing发布了新的文献求助10
1秒前
深情安青应助沈迎南采纳,获得30
1秒前
蔡翌文完成签到 ,获得积分10
3秒前
XinEr完成签到 ,获得积分10
4秒前
江上游完成签到 ,获得积分10
4秒前
卡拉米老油条完成签到,获得积分10
4秒前
小袁冲冲冲完成签到,获得积分10
7秒前
9秒前
我爱陶子完成签到 ,获得积分10
9秒前
优雅夕阳完成签到 ,获得积分10
10秒前
shinn完成签到,获得积分10
10秒前
爱吃橙子完成签到 ,获得积分10
11秒前
SZ发布了新的文献求助10
12秒前
marketing完成签到,获得积分20
13秒前
大力的忆霜完成签到 ,获得积分10
13秒前
嗯嗯你说完成签到,获得积分10
14秒前
隐形曼青应助shinn采纳,获得10
17秒前
温柔的伊完成签到 ,获得积分10
17秒前
xl应助勇往直前采纳,获得10
19秒前
五本笔记完成签到 ,获得积分10
19秒前
魁梧的衫完成签到 ,获得积分10
19秒前
22秒前
牛马自己push完成签到 ,获得积分10
22秒前
伶俐柔完成签到 ,获得积分10
25秒前
罗拉发布了新的文献求助10
26秒前
完美天蓝完成签到 ,获得积分10
28秒前
洁洁子完成签到 ,获得积分10
29秒前
135完成签到 ,获得积分10
29秒前
Ss完成签到 ,获得积分10
33秒前
小耗子完成签到,获得积分10
33秒前
33秒前
罗拉完成签到,获得积分10
34秒前
琪琪要发SCI完成签到,获得积分10
35秒前
吕半鬼完成签到,获得积分0
36秒前
江流有声完成签到 ,获得积分10
37秒前
猪四郎完成签到,获得积分10
38秒前
楚昕越发布了新的文献求助10
38秒前
务实觅松完成签到 ,获得积分10
39秒前
Vintoe完成签到 ,获得积分10
40秒前
Sunney发布了新的文献求助10
40秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Rapid Review of Electrodiagnostic and Neuromuscular Medicine: A Must-Have Reference for Neurologists and Physiatrists 1000
The Handbook of Communication Skills 500
求中国石油大学(北京)图书馆的硕士论文,作者董晨,十年前搞太赫兹的 500
基于3um sOl硅光平台的集成发射芯片关键器件研究 500
François Ravary SJ and a Sino-European Musical Culture in Nineteenth-Century Shanghai 300
the WHO Classification of Head and Neck Tumors (5th Edition) 300
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 4794017
求助须知:如何正确求助?哪些是违规求助? 4115648
关于积分的说明 12732815
捐赠科研通 3844246
什么是DOI,文献DOI怎么找? 2118915
邀请新用户注册赠送积分活动 1141113
关于科研通互助平台的介绍 1029576

今日热心研友

糟糕的铁锤
500
xl
2 20
馆长
30
读不完的文献啊
30
注:热心度 = 本日应助数 + 本日被采纳获取积分÷10