Dual-level Collaborative Transformer for Image Captioning

隐藏字幕 计算机科学 变压器 地点 网格 图形 人工智能 对偶(语法数字) 情报检索 图像(数学) 数据挖掘 理论计算机科学 艺术 语言学 哲学 物理 几何学 数学 文学类 量子力学 电压
作者
Yunpeng Luo,Jiayi Ji,Xiaoshuai Sun,Liujuan Cao,Yongjian Wu,Feiyue Huang,Chia‐Wen Lin,Rongrong Ji
出处
期刊:Proceedings of the ... AAAI Conference on Artificial Intelligence [Association for the Advancement of Artificial Intelligence (AAAI)]
卷期号:35 (3): 2286-2293 被引量:240
标识
DOI:10.1609/aaai.v35i3.16328
摘要

Descriptive region features extracted by object detection networks have played an important role in the recent advancements of image captioning. However, they are still criticized for the lack of contextual information and fine-grained details, which in contrast are the merits of traditional grid features. In this paper, we introduce a novel Dual-Level Collaborative Transformer (DLCT) network to realize the complementary advantages of the two features. Concretely, in DLCT, these two features are first processed by a novel Dual-way Self Attenion (DWSA) to mine their intrinsic properties, where a Comprehensive Relation Attention component is also introduced to embed the geometric information. In addition, we propose a Locality-Constrained Cross Attention module to address the semantic noises caused by the direct fusion of these two features, where a geometric alignment graph is constructed to accurately align and reinforce region and grid features. To validate our model, we conduct extensive experiments on the highly competitive MS-COCO dataset, and achieve new state-of-the-art performance on both local and online test sets, i.e., 133.8% CIDEr on Karpathy split and 135.4% CIDEr on the official split.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
行者无疆完成签到,获得积分10
1秒前
认真的纸飞机完成签到 ,获得积分10
2秒前
acat完成签到 ,获得积分10
3秒前
强健的惠完成签到 ,获得积分10
4秒前
俏皮诺言完成签到,获得积分10
7秒前
tsuki完成签到 ,获得积分10
9秒前
事上炼完成签到,获得积分10
9秒前
aikeyan完成签到,获得积分10
16秒前
小狮子完成签到 ,获得积分10
20秒前
bobo完成签到 ,获得积分10
25秒前
害羞孤风完成签到 ,获得积分10
25秒前
Sweet完成签到 ,获得积分10
27秒前
陈陈完成签到 ,获得积分10
32秒前
飞龙在天完成签到,获得积分0
42秒前
巫马尔槐完成签到,获得积分10
45秒前
46秒前
46秒前
今后应助科研通管家采纳,获得10
46秒前
46秒前
orixero应助科研通管家采纳,获得10
46秒前
烟花应助科研通管家采纳,获得50
46秒前
搜集达人应助科研通管家采纳,获得10
46秒前
46秒前
46秒前
ding应助科研通管家采纳,获得10
46秒前
46秒前
黑大侠完成签到 ,获得积分0
50秒前
zhangnan完成签到 ,获得积分10
51秒前
大脸猫完成签到 ,获得积分10
57秒前
DH完成签到 ,获得积分10
1分钟前
一一完成签到 ,获得积分10
1分钟前
不在意完成签到 ,获得积分10
1分钟前
kuyi完成签到 ,获得积分10
1分钟前
SciGPT应助飞行的子弹采纳,获得10
1分钟前
刘志萍完成签到 ,获得积分10
1分钟前
白菜炖大鹅完成签到,获得积分10
1分钟前
Owen应助白菜炖大鹅采纳,获得10
1分钟前
GTR的我完成签到 ,获得积分10
1分钟前
1分钟前
CadoreK完成签到 ,获得积分10
1分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Organometallic Chemistry of the Transition Metals 800
Chemistry and Physics of Carbon Volume 18 800
The Organometallic Chemistry of the Transition Metals 800
Leading Academic-Practice Partnerships in Nursing and Healthcare: A Paradigm for Change 800
The formation of Australian attitudes towards China, 1918-1941 640
Signals, Systems, and Signal Processing 610
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6436686
求助须知:如何正确求助?哪些是违规求助? 8251053
关于积分的说明 17551525
捐赠科研通 5494996
什么是DOI,文献DOI怎么找? 2898214
邀请新用户注册赠送积分活动 1874900
关于科研通互助平台的介绍 1716186