STAT: Spatial-Temporal Attention Mechanism for Video Captioning

计算机科学 隐藏字幕 光学(聚焦) 编码器 机制(生物学) 循环神经网络 语音识别 人工智能 人工神经网络 图像(数学) 认识论 操作系统 光学 物理 哲学
作者
Chenggang Yan,Yunbin Tu,Xingzheng Wang,Yongbing Zhang,Xinhong Hao,Yongdong Zhang,Qionghai Dai
出处
期刊:IEEE Transactions on Multimedia [Institute of Electrical and Electronics Engineers]
卷期号:22 (1): 229-241 被引量:228
标识
DOI:10.1109/tmm.2019.2924576
摘要

Video captioning refers to automatic generate natural language sentences, which summarize the video contents. Inspired by the visual attention mechanism of human beings, temporal attention mechanism has been widely used in video description to selectively focus on important frames. However, most existing methods based on temporal attention mechanism suffer from the problems of recognition error and detail missing, because temporal attention mechanism cannot further catch significant regions in frames. In order to address above problems, we propose the use of a novel spatial-temporal attention mechanism (STAT) within an encoder-decoder neural network for video captioning. The proposed STAT successfully takes into account both the spatial and temporal structures in a video, so it makes the decoder to automatically select the significant regions in the most relevant temporal segments for word prediction. We evaluate our STAT on two well-known benchmarks: MSVD and MSR-VTT-10K. Experimental results show that our proposed STAT achieves the state-of-the-art performance with several popular evaluation metrics: BLEU-4, METEOR, and CIDEr.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
木桔完成签到,获得积分20
刚刚
刚刚
北林完成签到 ,获得积分10
刚刚
刚刚
刚刚
1秒前
Slowdancer完成签到,获得积分10
1秒前
beiu完成签到,获得积分10
2秒前
kk发布了新的文献求助10
2秒前
魏lin发布了新的文献求助10
2秒前
2秒前
李锐发布了新的文献求助10
3秒前
无极微光应助姚diosdsajo采纳,获得20
3秒前
3秒前
芜湖发布了新的文献求助20
3秒前
爆米花应助海绵宝宝采纳,获得10
4秒前
所所应助SamYang采纳,获得10
4秒前
李健的小迷弟应助查正皓采纳,获得10
4秒前
李健应助April采纳,获得10
4秒前
sss完成签到,获得积分10
4秒前
wind完成签到 ,获得积分10
5秒前
鲸鱼完成签到,获得积分10
5秒前
星辰大海应助beiu采纳,获得10
5秒前
装饭的桶完成签到,获得积分10
6秒前
6秒前
7秒前
酷波er应助栗子栗子采纳,获得10
7秒前
kendrick677发布了新的文献求助10
7秒前
7秒前
赘婿应助YU采纳,获得10
8秒前
初景发布了新的文献求助10
8秒前
任元元完成签到 ,获得积分10
8秒前
8秒前
8秒前
慧慧子发布了新的文献求助10
8秒前
9秒前
yuyuuyu发布了新的文献求助10
9秒前
wly1121完成签到,获得积分10
9秒前
liu完成签到,获得积分10
10秒前
寒冷怜南发布了新的文献求助10
10秒前
高分求助中
Overcoming Stigma and Bias in Obesity Management 800
Malcolm Fraser : a biography 700
Signals, Systems, and Signal Processing 610
Materials selection in mechanical design 500
Bounds for Statistical Estimation in Semiparametric Models 500
Climate change and sports: Statistics report on climate change and sports 500
Forced degradation and stability indicating LC method for Letrozole: A stress testing guide 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6477684
求助须知:如何正确求助?哪些是违规求助? 8279440
关于积分的说明 17657587
捐赠科研通 5559812
什么是DOI,文献DOI怎么找? 2910902
邀请新用户注册赠送积分活动 1887873
关于科研通互助平台的介绍 1741389