亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

MSViT: Training Multiscale Vision Transformers for Image Retrieval

计算机科学 图像检索 人工智能 变压器 模式识别(心理学) 培训(气象学) 图像自动标注 计算机视觉 情报检索 图像(数学) 量子力学 物理 气象学 电压
作者
Xue Li,Jiong Yu,Shaochen Jiang,Hongchun Lu,Ziyang Li
出处
期刊:IEEE Transactions on Multimedia [Institute of Electrical and Electronics Engineers]
卷期号:26: 2809-2823 被引量:13
标识
DOI:10.1109/tmm.2023.3304021
摘要

The recently developed vision transformer (ViT) has achieved promising results on image retrieval compared to convolutional neural networks. However, most of these vision transformer-based image retrieval methods use the original ViT model to extract global features, ignoring the importance of local features for image retrieval. In this work, we propose a vision transformer-based multiscale feature fusion image retrieval method (MSViT) to achieve the fusion of global features with local features. The challenge of this research work is how to learn the feature representation ability of transformer model, so as to improve the performance of image retrieval model. First, a transformer-based two-branch network structure is proposed to obtain different scale features by processing image patches with different granularities. Second, we present a multiscale feature fusion strategy, which can efficiently and effectively fuse the feature information of different sizes on two branches. Finally, to more fully utilize the label information to supervise the network training process, we optimize the construction rules for the triplet data. The comparison of experimental results with ten CNN-based and six transformer-based image retrieval methods on four publicly available image datasets shows that our method outperforms the state-of-the-art methods. And ablation experiments show that the designed multiscale feature fusion strategy and improved triplet loss function have an implicit improvement on the performance of MSViT.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
科研通AI2S应助科研通管家采纳,获得10
42秒前
乐乐应助JT采纳,获得10
1分钟前
1分钟前
JT发布了新的文献求助10
1分钟前
2分钟前
ukz37752应助XPYCQ采纳,获得10
3分钟前
3分钟前
电化学完成签到,获得积分20
3分钟前
电化学发布了新的文献求助10
3分钟前
彭于晏应助电化学采纳,获得10
3分钟前
沙海沉戈完成签到,获得积分0
3分钟前
轻松的小懒虫完成签到 ,获得积分10
3分钟前
3分钟前
3分钟前
烟花应助轻松的小懒虫采纳,获得10
4分钟前
poki完成签到 ,获得积分10
4分钟前
上官若男应助科研通管家采纳,获得10
4分钟前
4分钟前
LELE发布了新的文献求助10
5分钟前
细心帽子完成签到,获得积分20
5分钟前
细心帽子发布了新的文献求助10
5分钟前
乐观海云完成签到 ,获得积分10
5分钟前
在水一方应助细心帽子采纳,获得10
6分钟前
魔幻的妖丽完成签到 ,获得积分10
6分钟前
冬去春来完成签到 ,获得积分10
7分钟前
感性的靖仇完成签到,获得积分10
7分钟前
7分钟前
常温完成签到,获得积分10
7分钟前
7分钟前
7分钟前
酷波er应助王其超采纳,获得10
7分钟前
博ge完成签到 ,获得积分10
8分钟前
juan完成签到 ,获得积分10
8分钟前
科研通AI2S应助科研通管家采纳,获得10
8分钟前
8分钟前
科研通AI2S应助科研通管家采纳,获得10
8分钟前
8分钟前
王其超发布了新的文献求助10
9分钟前
彭于晏应助科研通管家采纳,获得10
10分钟前
脑洞疼应助Estrange采纳,获得10
11分钟前
高分求助中
Applied Survey Data Analysis (第三版, 2025) 800
Narcissistic Personality Disorder 700
The Martian climate revisited: atmosphere and environment of a desert planet 500
Plasmonics 400
建国初期十七年翻译活动的实证研究. 建国初期十七年翻译活动的实证研究 400
Towards a spatial history of contemporary art in China 400
Ecology, Socialism and the Mastery of Nature: A Reply to Reiner Grundmann 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3847736
求助须知:如何正确求助?哪些是违规求助? 3390439
关于积分的说明 10561584
捐赠科研通 3110798
什么是DOI,文献DOI怎么找? 1714535
邀请新用户注册赠送积分活动 825272
科研通“疑难数据库(出版商)”最低求助积分说明 775453