已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Fast, Accurate, and Lightweight Memory-Enhanced Embedding Learning Framework for Image-Text Retrieval

计算机科学 图像检索 嵌入 人工智能 图像(数学) 图像处理 计算机视觉 情报检索 模式识别(心理学)
作者
Zhe Li,Lei Zhang,Kun Zhang,Yongdong Zhang,Zhendong Mao
出处
期刊:IEEE Transactions on Circuits and Systems for Video Technology [Institute of Electrical and Electronics Engineers]
卷期号:34 (7): 6542-6558 被引量:7
标识
DOI:10.1109/tcsvt.2024.3358411
摘要

Image-text retrieval is a fundamental task in bridging the semantics between vision and language. The key challenge lies in accurately and efficiently learning the semantic alignment between two heterogeneous modalities. Existing image-text retrieval approaches can be roughly classified into two paradigms. The first independent-embedding paradigm is to learn the global embeddings of two modalities, which can achieve efficient retrieval while failing to effectively capture the cross-modal fine-grained interaction information between images and texts. The second interactive-embedding paradigm is to learn fine-grained alignment between regions and words, which can achieve accurate retrieval while sacrificing retrieval efficiency. In this paper, we propose a novel Independent Memory-Enhanced emBedding learning framework (IMEB), which introduces a lightweight middleware, i.e ., memory network, into the independent-embedding approaches to simultaneously exploit the complementary of both paradigms. Specifically, first, in the training stage, we propose a novel cross-modal association graph to learn cross-modal fine-grained interaction information. Then, we delicately design a memory-assisted embedding learning network to store these prototypical features after interaction as agents, and effectively update the memory network via two learning strategies. Finally, in the inference stage, we directly interact with these agent-level prototypical features from the memory bank, thus efficiently obtaining cross-modal memory-enhanced embeddings. In this way, our model not only effectively learns cross-modal interaction information, but also maintains the retrieval efficiency. Extensive experimental results on two benchmarks, i.e ., Flickr30K and MS-COCO, demonstrate that our IMEB performs favorably against state-of-the-art methods.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
英姑应助WGR12138采纳,获得10
刚刚
刚刚
奋斗的小笼包完成签到 ,获得积分10
刚刚
棠真完成签到 ,获得积分10
1秒前
1秒前
欢呼白晴完成签到 ,获得积分10
1秒前
时尚身影完成签到,获得积分10
3秒前
gggghhhh完成签到 ,获得积分10
3秒前
yinlao完成签到,获得积分0
3秒前
孤芳自赏IrisKing完成签到 ,获得积分10
4秒前
leave完成签到 ,获得积分0
4秒前
小米的稻田完成签到 ,获得积分10
4秒前
峰feng完成签到 ,获得积分10
4秒前
充电宝应助poplyx采纳,获得10
4秒前
xiaoyaoyou完成签到,获得积分10
5秒前
好运绵绵完成签到 ,获得积分10
5秒前
繁笙完成签到 ,获得积分10
6秒前
success2024完成签到 ,获得积分10
6秒前
流苏完成签到,获得积分10
6秒前
浮生完成签到 ,获得积分10
6秒前
优美若雁完成签到,获得积分10
6秒前
6秒前
zoye完成签到 ,获得积分10
7秒前
晴天完成签到 ,获得积分10
8秒前
8秒前
蛋妮完成签到 ,获得积分10
9秒前
LHP完成签到 ,获得积分10
9秒前
流苏2完成签到,获得积分10
9秒前
10秒前
科研通AI5应助刻苦的元菱采纳,获得10
10秒前
Swater完成签到 ,获得积分10
10秒前
Worenxian完成签到 ,获得积分10
10秒前
狂野的巨人完成签到 ,获得积分10
10秒前
科研fw完成签到 ,获得积分10
11秒前
11秒前
kaiqiang完成签到,获得积分0
11秒前
脱锦涛完成签到 ,获得积分10
11秒前
11秒前
北觅完成签到 ,获得积分10
12秒前
LIRAN666发布了新的文献求助10
13秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Rapid Review of Electrodiagnostic and Neuromuscular Medicine: A Must-Have Reference for Neurologists and Physiatrists 1000
The Handbook of Communication Skills 500
求中国石油大学(北京)图书馆的硕士论文,作者董晨,十年前搞太赫兹的 500
基于3um sOl硅光平台的集成发射芯片关键器件研究 500
François Ravary SJ and a Sino-European Musical Culture in Nineteenth-Century Shanghai 300
the WHO Classification of Head and Neck Tumors (5th Edition) 300
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 4794017
求助须知:如何正确求助?哪些是违规求助? 4115648
关于积分的说明 12732815
捐赠科研通 3844246
什么是DOI,文献DOI怎么找? 2118915
邀请新用户注册赠送积分活动 1141113
关于科研通互助平台的介绍 1029576

今日热心研友

注:热心度 = 本日应助数 + 本日被采纳获取积分÷10