Boosting Entity-Aware Image Captioning With Multi-Modal Knowledge Graph

计算机科学 隐藏字幕 Boosting(机器学习) 知识图 情态动词 人工智能 图形 情报检索 自然语言处理 图像(数学) 理论计算机科学 化学 高分子化学
作者
Wentian Zhao,Xinxiao Wu
出处
期刊:IEEE Transactions on Multimedia [Institute of Electrical and Electronics Engineers]
卷期号:26: 2659-2670 被引量:34
标识
DOI:10.1109/tmm.2023.3301279
摘要

Entity-aware image captioning aims to describe named entities and events related to the image by utilizing the background knowledge in the associated article. This task remains challenging as it is difficult to learn the association between named entities and visual cues due to the long-tail distribution of named entities. Furthermore, the complexity of the article brings difficulty in extracting fine-grained relationships between entities to generate informative event descriptions about the image. To tackle these challenges, we propose a novel approach that constructs a multi-modal knowledge graph (MMKG) to associate the visual objects with named entities and capture the relationship between entities simultaneously with the help of external knowledge collected from the web. Specifically, we build a text sub-graph by extracting named entities and their relationships from the article, and build an image sub-graph by detecting the objects in the image. To connect these two sub-graphs, we propose a cross-modal entity matching module trained using a knowledge base that contains Wikipedia entries and the corresponding images. Finally, the MMKG is integrated into the captioning model via a graph attention mechanism. Extensive experiments on both GoodNews and NYTimes800 k datasets demonstrate the effectiveness of our method.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
灰底爆米花完成签到,获得积分10
刚刚
1秒前
凶狠的亦巧完成签到,获得积分10
2秒前
Wang发布了新的文献求助10
2秒前
刻苦冰颜完成签到,获得积分10
3秒前
3秒前
eternity136发布了新的文献求助30
3秒前
所所应助啦啦采纳,获得10
4秒前
来ll发布了新的文献求助10
5秒前
orixero应助翻似烂柯人采纳,获得10
5秒前
00发布了新的文献求助10
5秒前
6秒前
烂漫的冰蓝完成签到,获得积分10
6秒前
6秒前
小熊猫完成签到,获得积分10
7秒前
7秒前
个性元枫完成签到,获得积分10
7秒前
完美凝海完成签到,获得积分10
8秒前
8秒前
Carly发布了新的文献求助10
8秒前
9秒前
SSSSCCCCIIII发布了新的文献求助30
10秒前
noobmaster发布了新的文献求助10
11秒前
煎饼完成签到,获得积分10
11秒前
清爽熊猫发布了新的文献求助10
11秒前
12秒前
13秒前
朴素爆米花完成签到,获得积分10
14秒前
14秒前
小马甲应助雨凇采纳,获得10
15秒前
aldehyde应助小蛙采纳,获得10
16秒前
思源应助Wang采纳,获得10
16秒前
訫乐发布了新的文献求助10
17秒前
冷酷鱼完成签到 ,获得积分10
17秒前
脑洞疼应助闲云忙风采纳,获得10
18秒前
翻似烂柯人完成签到,获得积分10
18秒前
成就的沛菡完成签到,获得积分10
19秒前
Owen应助如风随水采纳,获得10
19秒前
dadazhou完成签到,获得积分10
20秒前
SYLH应助香蕉秋柳采纳,获得10
20秒前
高分求助中
诺和针® 32G 4mm 说明书(2023年2月23日) 1000
Electron microscopy study of magnesium hydride (MgH2) for Hydrogen Storage 1000
Machine Learning in Chemistry The Impact of Artificial Intelligence 500
生物降解型栓塞微球市场(按产品类型、应用和最终用户)- 2030 年全球预测 500
Nucleophilic substitution in azasydnone-modified dinitroanisoles 500
Quantum Computing for Quantum Chemistry 500
Thermal Expansion of Solids (CINDAS Data Series on Material Properties, v. I-4) 470
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3899110
求助须知:如何正确求助?哪些是违规求助? 3443759
关于积分的说明 10831326
捐赠科研通 3168405
什么是DOI,文献DOI怎么找? 1750587
邀请新用户注册赠送积分活动 846093
科研通“疑难数据库(出版商)”最低求助积分说明 789047