Meshed-Memory Transformer for Image Captioning

隐藏字幕 计算机科学 变压器 解码方法 先验与后验 语言模型 源代码 利用 人工智能 自然语言处理 图像(数学) 计算机工程 程序设计语言 算法 电压 物理 哲学 认识论 量子力学 计算机安全
作者
Marcella Cornia,Matteo Stefanini,Lorenzo Baraldi,Rita Cucchiara
标识
DOI:10.1109/cvpr42600.2020.01059
摘要

Transformer-based architectures represent the state of the art in sequence modeling tasks like machine translation and language understanding. Their applicability to multi-modal contexts like image captioning, however, is still largely under-explored. With the aim of filling this gap, we present M 2 - a Meshed Transformer with Memory for Image Captioning. The architecture improves both the image encoding and the language generation steps: it learns a multi-level representation of the relationships between image regions integrating learned a priori knowledge, and uses a mesh-like connectivity at decoding stage to exploit low- and high-level features. Experimentally, we investigate the performance of the M 2 Transformer and different fully-attentive models in comparison with recurrent ones. When tested on COCO, our proposal achieves a new state of the art in single-model and ensemble configurations on the "Karpathy" test split and on the online test server. We also assess its performances when describing objects unseen in the training set. Trained models and code for reproducing the experiments are publicly available at: https://github.com/aimagelab/meshed-memory-transformer.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
山石二道疤完成签到,获得积分20
刚刚
okguy0210发布了新的文献求助10
刚刚
刚刚
俊俊完成签到,获得积分10
1秒前
麦冬冬完成签到,获得积分10
2秒前
3秒前
明理的小甜瓜完成签到,获得积分10
3秒前
changping应助小白菜采纳,获得10
3秒前
善学以致用应助小白菜采纳,获得10
3秒前
4秒前
无心发布了新的文献求助10
5秒前
5秒前
5秒前
5秒前
NexusExplorer应助wg采纳,获得10
5秒前
6秒前
威武的念波完成签到,获得积分10
6秒前
11发布了新的文献求助10
6秒前
6秒前
三生一陌发布了新的文献求助30
6秒前
hsbuuwqbdubeq发布了新的文献求助10
7秒前
7秒前
长安完成签到,获得积分10
7秒前
扶光完成签到,获得积分10
8秒前
chen发布了新的文献求助10
8秒前
山高发布了新的文献求助10
8秒前
ysm完成签到,获得积分10
8秒前
8秒前
现实的从菡完成签到,获得积分10
8秒前
胡楠发布了新的文献求助10
8秒前
9秒前
霜之哀伤发布了新的文献求助10
9秒前
烟花应助小狗乖乖怪采纳,获得10
10秒前
熬夜小猫完成签到,获得积分10
10秒前
小段完成签到,获得积分10
10秒前
changping应助闪闪的鸭子采纳,获得10
11秒前
诚心雁丝发布了新的文献求助10
11秒前
11秒前
潇洒冬日完成签到,获得积分10
11秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Pipeline and riser loss of containment 2001 - 2020 (PARLOC 2020) 1000
Artificial Intelligence driven Materials Design 600
Comparing natural with chemical additive production 500
Investigation the picking techniques for developing and improving the mechanical harvesting of citrus 500
Phylogenetic study of the order Polydesmida (Myriapoda: Diplopoda) 500
A Manual for the Identification of Plant Seeds and Fruits : Second revised edition 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 5193933
求助须知:如何正确求助?哪些是违规求助? 4376236
关于积分的说明 13628897
捐赠科研通 4231184
什么是DOI,文献DOI怎么找? 2320812
邀请新用户注册赠送积分活动 1319105
关于科研通互助平台的介绍 1269416