Meshed-Memory Transformer for Image Captioning

隐藏字幕 计算机科学 变压器 解码方法 先验与后验 语言模型 源代码 利用 人工智能 自然语言处理 图像(数学) 计算机工程 程序设计语言 算法 电压 物理 哲学 认识论 量子力学 计算机安全
作者
Marcella Cornia,Matteo Stefanini,Lorenzo Baraldi,Rita Cucchiara
标识
DOI:10.1109/cvpr42600.2020.01059
摘要

Transformer-based architectures represent the state of the art in sequence modeling tasks like machine translation and language understanding. Their applicability to multi-modal contexts like image captioning, however, is still largely under-explored. With the aim of filling this gap, we present M 2 - a Meshed Transformer with Memory for Image Captioning. The architecture improves both the image encoding and the language generation steps: it learns a multi-level representation of the relationships between image regions integrating learned a priori knowledge, and uses a mesh-like connectivity at decoding stage to exploit low- and high-level features. Experimentally, we investigate the performance of the M 2 Transformer and different fully-attentive models in comparison with recurrent ones. When tested on COCO, our proposal achieves a new state of the art in single-model and ensemble configurations on the "Karpathy" test split and on the online test server. We also assess its performances when describing objects unseen in the training set. Trained models and code for reproducing the experiments are publicly available at: https://github.com/aimagelab/meshed-memory-transformer.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
nieinei完成签到 ,获得积分10
1秒前
zzz发布了新的文献求助10
3秒前
Fluoxetine完成签到,获得积分10
4秒前
吴路完成签到,获得积分10
8秒前
Aliya完成签到 ,获得积分10
11秒前
jianglan完成签到,获得积分10
12秒前
obaica完成签到,获得积分10
15秒前
GAN完成签到,获得积分10
17秒前
noflatterer完成签到,获得积分10
17秒前
sb完成签到,获得积分10
17秒前
方圆几里完成签到,获得积分10
18秒前
今天开心吗完成签到 ,获得积分10
18秒前
随性完成签到,获得积分10
21秒前
夜安完成签到 ,获得积分20
21秒前
23秒前
rumengzhuo完成签到,获得积分10
27秒前
tender完成签到,获得积分10
27秒前
叶子完成签到 ,获得积分10
33秒前
ZOU完成签到,获得积分20
36秒前
mawanyu完成签到 ,获得积分10
38秒前
健康的网络完成签到,获得积分10
38秒前
123123完成签到 ,获得积分10
38秒前
科研通AI2S应助pp采纳,获得10
38秒前
小羊完成签到 ,获得积分10
39秒前
felix发布了新的文献求助30
43秒前
orixero应助科研通管家采纳,获得10
43秒前
打打应助科研通管家采纳,获得10
43秒前
ED应助科研通管家采纳,获得10
43秒前
王治焕应助科研通管家采纳,获得30
43秒前
43秒前
Emma应助科研通管家采纳,获得10
44秒前
44秒前
44秒前
44秒前
ED应助科研通管家采纳,获得10
44秒前
44秒前
44秒前
44秒前
44秒前
44秒前
高分求助中
ФОРМИРОВАНИЕ АО "МЕЖДУНАРОДНАЯ КНИГА" КАК ВАЖНЕЙШЕЙ СИСТЕМЫ ОТЕЧЕСТВЕННОГО КНИГОРАСПРОСТРАНЕНИЯ 3000
Electron microscopy study of magnesium hydride (MgH2) for Hydrogen Storage 1000
生物降解型栓塞微球市场(按产品类型、应用和最终用户)- 2030 年全球预测 500
Quantum Computing for Quantum Chemistry 500
Thermal Expansion of Solids (CINDAS Data Series on Material Properties, v. I-4) 470
Fire Protection Handbook, 21st Edition volume1和volume2 360
Phylogenetic study of the order Polydesmida (Myriapoda: Diplopoda) 360
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3901982
求助须知:如何正确求助?哪些是违规求助? 3446653
关于积分的说明 10845383
捐赠科研通 3171911
什么是DOI,文献DOI怎么找? 1752496
邀请新用户注册赠送积分活动 847271
科研通“疑难数据库(出版商)”最低求助积分说明 789857