亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Fine-Granularity Alignment for Text-Based Person Retrieval Via Semantics-Centric Visual Division

粒度 计算机科学 语义学(计算机科学) 师(数学) 情报检索 人工智能 计算机视觉 自然语言处理 程序设计语言 数学 算术
作者
Zhimin Wei,Z. Y. Zhang,Peng Wu,Ji Wang,Peng Wang,Yanning Zhang
出处
期刊:IEEE Transactions on Circuits and Systems for Video Technology [Institute of Electrical and Electronics Engineers]
卷期号:34 (9): 8242-8252 被引量:1
标识
DOI:10.1109/tcsvt.2024.3392831
摘要

Text-based Person Retrieval aims to search the target pedestrian image from video surveillance or a large image database with a text description. Previous works have recognized the significance of mining local information in images and descriptions and performing fine-grained alignment. These approaches adopt hard division or auxiliary networks for locating local visual regions. However, the two existing ways are not flexible enough for various images and may even bring noise. Meanwhile, the Vision-Language Pre-training models like CLIP exhibit strong generalization and zero-shot abilities, which provide an available way to this issue. In this paper, we propose a novel Fine-Granularity Alignment model with Semantics-Centric Visual Division (SCVD). Our method contains a Semantics Deconstructor (SD), a Cross-modal Guided Interaction (CGI) module, and a Dynamic Focus Alignment (DFA) module. The SD aims to extract fine-grained semantic prompts from the raw description which is easy-understand for CLIP. In CGI, we propose a Text-Guided Visual Localization (TVL) module to generate local visual representations according to the semantic prompts and a Vision-Guided Semantics Reconstruction (VSR) module to integrate the prompts into the textual representation. The DFA is used finally to align vision-text fine-grained information. The extensive experiments demonstrate that our proposed framework significantly outperforms current state-of-the-art methods in terms of Rank@1 metric on three benchmarks by an absolute gain of 6.56%, 8.93%, and 11.53%, respectively. Our code is available in https://github.com/tujun233/SCVD.git.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
6秒前
ll发布了新的文献求助10
8秒前
氟锑酸完成签到 ,获得积分10
22秒前
研友_VZG7GZ应助www采纳,获得10
1分钟前
1分钟前
www发布了新的文献求助10
1分钟前
深情安青应助科研通管家采纳,获得10
1分钟前
1分钟前
万能图书馆应助www采纳,获得10
2分钟前
2分钟前
xingsixs完成签到 ,获得积分10
2分钟前
3分钟前
葛力发布了新的文献求助10
3分钟前
科研通AI5应助葛力采纳,获得10
3分钟前
猜不猜不完成签到 ,获得积分10
4分钟前
icicle99完成签到,获得积分10
4分钟前
4分钟前
大模型应助结实的皮皮虾采纳,获得10
4分钟前
icicle99发布了新的文献求助10
4分钟前
5分钟前
sdniuidifod发布了新的文献求助10
5分钟前
5分钟前
小美完成签到,获得积分10
5分钟前
科研通AI5应助sdniuidifod采纳,获得10
6分钟前
30完成签到,获得积分10
6分钟前
6分钟前
6分钟前
Akim应助Iusolite采纳,获得10
7分钟前
结实的皮皮虾完成签到,获得积分10
7分钟前
张先生完成签到 ,获得积分10
7分钟前
30发布了新的文献求助10
7分钟前
科研通AI2S应助科研通管家采纳,获得10
7分钟前
姚芭蕉完成签到 ,获得积分0
8分钟前
义气雁完成签到 ,获得积分10
8分钟前
8分钟前
Iusolite发布了新的文献求助10
8分钟前
jyy应助Iusolite采纳,获得10
8分钟前
CodeCraft应助helpmepaper采纳,获得10
8分钟前
令散内方发布了新的文献求助20
8分钟前
高分求助中
The Oxford Encyclopedia of the History of Modern Psychology 1500
Parametric Random Vibration 600
城市流域产汇流机理及其驱动要素研究—以北京市为例 500
Plasmonics 500
Drug distribution in mammals 500
Building Quantum Computers 458
Happiness in the Nordic World 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3857311
求助须知:如何正确求助?哪些是违规求助? 3399733
关于积分的说明 10613403
捐赠科研通 3121973
什么是DOI,文献DOI怎么找? 1721164
邀请新用户注册赠送积分活动 828911
科研通“疑难数据库(出版商)”最低求助积分说明 777928