Enhanced Semantic Similarity Learning Framework for Image-Text Matching

计算机科学 语义相似性 人工智能 相似性(几何) 匹配(统计) 自然语言处理 模式识别(心理学) 语义学(计算机科学) 情报检索 图像(数学) 数学 统计 程序设计语言
作者
Kun Zhang,Bo Hu,Huatian Zhang,Zhe Li,Zhendong Mao
出处
期刊:IEEE Transactions on Circuits and Systems for Video Technology [Institute of Electrical and Electronics Engineers]
卷期号:34 (4): 2973-2988 被引量:21
标识
DOI:10.1109/tcsvt.2023.3307554
摘要

Image-text matching is a fundamental task to bridge vision and language. The critical challenge lies in accurately learning the semantic similarity between these two heterogeneous modalities. For visual and textual features, existing methods typically default to a static dimensional correspondence mechanism, i.e., using a single dimension as the measure-unit to perform one-to-one correspondence, to examine semantic similarity, e.g., the cosine/Euclidean distance or the weighted similarity. In this paper, different from the single-dimensional correspondence with limited semantic expressive capability, we propose a novel enhanced semantic similarity learning (ESL), which generalizes both measure-units and their correspondences into a dynamic learnable framework to examine the multi-dimensional enhanced correspondence between visual and textual features. Specifically, we first devise the intra-modal multi-dimensional aggregators with iterative enhancing mechanism, which dynamically captures new measure-units integrated by hierarchical multi-dimensions, producing diverse semantic combinatorial expressive capabilities to provide richer and discriminative information for similarity examination. Then, we devise the inter-modal enhanced correspondence learning with sparse contribution degrees, which comprehensively and efficiently determines the cross-modal semantic similarity. Extensive experiments verify its superiority in achieving state-of-the-art performance. Codes will be released at https://github.com/CrossmodalGroup/ESL .
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
yl发布了新的文献求助10
刚刚
刚刚
Ragumong发布了新的文献求助10
刚刚
刚刚
1秒前
pipiap发布了新的文献求助10
1秒前
乱武发布了新的文献求助30
2秒前
2秒前
哈哈哈发布了新的文献求助10
2秒前
领导范儿应助牧歌采纳,获得10
3秒前
healthy完成签到,获得积分10
3秒前
pluto应助眯眯眼的雪曼采纳,获得10
3秒前
沉默寻凝发布了新的文献求助20
3秒前
慕青应助shi采纳,获得30
3秒前
在水一方应助zzzz采纳,获得10
4秒前
4秒前
量子星尘发布了新的文献求助10
5秒前
Rai完成签到,获得积分10
5秒前
小二郎应助tangxinhebaodan采纳,获得10
5秒前
5秒前
Er魁发布了新的文献求助10
5秒前
hehe完成签到,获得积分10
6秒前
sran发布了新的文献求助10
6秒前
科研渣渣完成签到,获得积分10
6秒前
伶俐小凝完成签到,获得积分10
6秒前
NexusExplorer应助一对月亮采纳,获得10
7秒前
8秒前
8秒前
Ebbey发布了新的文献求助10
8秒前
负责觅山发布了新的文献求助10
8秒前
华仔应助starrism采纳,获得10
9秒前
Jane完成签到,获得积分10
9秒前
nenenn完成签到,获得积分10
9秒前
杨树林发布了新的文献求助10
9秒前
11秒前
我还在路上完成签到,获得积分10
12秒前
wxf发布了新的文献求助10
12秒前
12秒前
极速发布了新的文献求助10
13秒前
13秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Burger's Medicinal Chemistry, Drug Discovery and Development, Volumes 1 - 8, 8 Volume Set, 8th Edition 1800
Cronologia da história de Macau 1600
Contemporary Debates in Epistemology (3rd Edition) 1000
International Arbitration Law and Practice 1000
文献PREDICTION EQUATIONS FOR SHIPS' TURNING CIRCLES或期刊Transactions of the North East Coast Institution of Engineers and Shipbuilders第95卷 1000
BRITTLE FRACTURE IN WELDED SHIPS 1000
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 纳米技术 计算机科学 化学工程 生物化学 物理 复合材料 内科学 催化作用 物理化学 光电子学 细胞生物学 基因 电极 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6155717
求助须知:如何正确求助?哪些是违规求助? 7984154
关于积分的说明 16591118
捐赠科研通 5265875
什么是DOI,文献DOI怎么找? 2809925
邀请新用户注册赠送积分活动 1790123
关于科研通互助平台的介绍 1657494