Text-Video Retrieval with Global-Local Semantic Consistent Learning

计算机科学 视频检索 情报检索 人工智能 图像检索 语义学(计算机科学) 自然语言处理 图像(数学) 程序设计语言
作者
Haonan Zhang,Pengpeng Zeng,Lianli Gao,Jingkuan Song,Yihang Duan,Xinyu Lyu,Heng Tao Shen
出处
期刊:IEEE transactions on image processing [Institute of Electrical and Electronics Engineers]
卷期号:: 1-1 被引量:1
标识
DOI:10.1109/tip.2025.3574925
摘要

Adapting large-scale image-text pre-training models, e.g., CLIP, to the video domain represents the current state-of-the-art for text-video retrieval. The primary approaches involve transferring text-video pairs to a common embedding space and leveraging cross-modal interactions on specific entities for semantic alignment. Though effective, these paradigms entail prohibitive computational costs, leading to inefficient retrieval. To address this, we propose a simple yet effective method, Global-Local Semantic Consistent Learning (GLSCL), which capitalizes on latent shared semantics across modalities for text-video retrieval. Specifically, we introduce a parameter-free global interaction module to explore coarse-grained alignment. Then, we devise a shared local interaction module that employs several learnable queries to capture latent semantic concepts for learning fine-grained alignment. Furthermore, an Inter-Consistency Loss (ICL) is devised to accomplish the concept alignment between the visual query and corresponding textual query, and an Intra-Diversity Loss (IDL) is developed to repulse the distribution within visual (textual) queries to generate more discriminative concepts. Extensive experiments on five widely used benchmarks (i.e., MSR-VTT, MSVD, DiDeMo, LSMDC, and ActivityNet) substantiate the superior effectiveness and efficiency of the proposed method. Remarkably, our method achieves comparable performance with SOTA as well as being nearly 220 times faster in terms of computational cost. Code is available at: https://github.com/zchoi/GLSCL.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
6秒前
12秒前
19秒前
唐泽雪穗应助彩色的芷容采纳,获得10
27秒前
黙宇循光完成签到 ,获得积分10
30秒前
ZHANG完成签到 ,获得积分10
32秒前
风格完成签到,获得积分10
37秒前
ll完成签到,获得积分10
40秒前
瞿人雄完成签到,获得积分10
41秒前
FashionBoy应助JJJ采纳,获得10
43秒前
没心没肺完成签到,获得积分10
43秒前
手术刀完成签到 ,获得积分10
44秒前
1002SHIB完成签到,获得积分10
45秒前
nihaolaojiu完成签到,获得积分10
45秒前
sheetung完成签到,获得积分10
46秒前
丘比特应助科研通管家采纳,获得10
47秒前
Ava应助科研通管家采纳,获得10
47秒前
47秒前
麦田麦兜完成签到,获得积分10
48秒前
亭2007完成签到 ,获得积分10
50秒前
JJJ完成签到,获得积分10
50秒前
56秒前
开拖拉机的医学僧完成签到 ,获得积分10
1分钟前
wuduolife完成签到 ,获得积分10
1分钟前
Yolo完成签到 ,获得积分10
1分钟前
Ya完成签到 ,获得积分10
1分钟前
dormraider完成签到,获得积分10
1分钟前
2分钟前
点点完成签到 ,获得积分10
2分钟前
huahua完成签到 ,获得积分10
2分钟前
月军发布了新的文献求助10
2分钟前
久伴久爱完成签到 ,获得积分10
2分钟前
Sofia完成签到 ,获得积分0
2分钟前
ZXD1989完成签到 ,获得积分10
2分钟前
grace完成签到 ,获得积分10
2分钟前
缥缈的闭月完成签到,获得积分10
2分钟前
貔貅完成签到 ,获得积分10
3分钟前
丘比特应助月军采纳,获得10
3分钟前
高挑的若雁完成签到 ,获得积分10
3分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Rapid Review of Electrodiagnostic and Neuromuscular Medicine: A Must-Have Reference for Neurologists and Physiatrists 1000
The Handbook of Communication Skills 500
求中国石油大学(北京)图书馆的硕士论文,作者董晨,十年前搞太赫兹的 500
基于3um sOl硅光平台的集成发射芯片关键器件研究 500
Educational Research: Planning, Conducting, and Evaluating Quantitative and Qualitative Research 460
François Ravary SJ and a Sino-European Musical Culture in Nineteenth-Century Shanghai 300
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 4795149
求助须知:如何正确求助?哪些是违规求助? 4116245
关于积分的说明 12734044
捐赠科研通 3845469
什么是DOI,文献DOI怎么找? 2119421
邀请新用户注册赠送积分活动 1141523
关于科研通互助平台的介绍 1030739