Vision Enhanced Generative Pre-trained Language Model for Multimodal Sentence Summarization

计算机科学 自动汇总 生成语法 人工智能 判决 特征(语言学) 任务(项目管理) 模式 编码器 自然语言处理 计算机视觉 语言学 工程类 社会科学 哲学 系统工程 社会学 操作系统
作者
Liqiang Jing,Yiren Li,Junhao Xu,Yongcan Yu,Pei Shen,Xuemeng Song
标识
DOI:10.1007/s11633-022-1372-x
摘要

Multimodal sentence summarization (MMSS) is a new yet challenging task that aims to generate a concise summary of a long sentence and its corresponding image. Although existing methods have gained promising success in MMSS, they overlook the powerful generation ability of generative pre-trained language models (GPLMs), which have shown to be effective in many text generation tasks. To fill this research gap, we propose to using GPLMs to promote the performance of MMSS. Notably, adopting GPLMs to solve MMSS inevitably faces two challenges: 1) What fusion strategy should we use to inject visual information into GPLMs properly? 2) How to keep the GPLM′s generation ability intact to the utmost extent when the visual feature is injected into the GPLM. To address these two challenges, we propose a vision enhanced generative pre-trained language model for MMSS, dubbed as Vision-GPLM. In Vision-GPLM, we obtain features of visual and textual modalities with two separate encoders and utilize a text decoder to produce a summary. In particular, we utilize multi-head attention to fuse the features extracted from visual and textual modalities to inject the visual feature into the GPLM. Meanwhile, we train Vision-GPLM in two stages: the vision-oriented pre-training stage and fine-tuning stage. In the vision-oriented pre-training stage, we particularly train the visual encoder by the masked language model task while the other components are frozen, aiming to obtain homogeneous representations of text and image. In the fine-tuning stage, we train all the components of Vision-GPLM by the MMSS task. Extensive experiments on a public MMSS dataset verify the superiority of our model over existing baselines.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
zzz完成签到 ,获得积分10
4秒前
hgdgogogo关注了科研通微信公众号
5秒前
6秒前
lelele完成签到,获得积分10
6秒前
8秒前
9秒前
量子星尘发布了新的文献求助10
10秒前
lelele发布了新的文献求助10
11秒前
科研通AI2S应助nick liu123采纳,获得10
11秒前
8R60d8应助pyimh采纳,获得10
12秒前
Sy发布了新的文献求助30
13秒前
在水一方应助穆仰采纳,获得10
13秒前
mairs完成签到 ,获得积分10
13秒前
秀丽菠萝发布了新的文献求助10
13秒前
丹丹完成签到,获得积分10
15秒前
阅遍SCI完成签到,获得积分10
17秒前
岚婘完成签到,获得积分10
19秒前
xz发布了新的文献求助10
19秒前
tier3完成签到,获得积分10
28秒前
sun完成签到,获得积分10
29秒前
33秒前
34秒前
量子星尘发布了新的文献求助10
36秒前
秀丽菠萝完成签到,获得积分10
36秒前
阿网发布了新的文献求助10
42秒前
44秒前
舒心的耷完成签到,获得积分10
45秒前
46秒前
46秒前
鸽子汤完成签到 ,获得积分10
49秒前
瘦瘦瘦完成签到 ,获得积分10
50秒前
eleusis完成签到 ,获得积分10
54秒前
nk完成签到 ,获得积分10
58秒前
量子星尘发布了新的文献求助10
1分钟前
Nature完成签到,获得积分10
1分钟前
1分钟前
飞阳完成签到,获得积分10
1分钟前
飘逸锦程完成签到 ,获得积分10
1分钟前
在水一方应助研友_8QyXr8采纳,获得20
1分钟前
高分求助中
【提示信息,请勿应助】请使用合适的网盘上传文件 10000
The Oxford Encyclopedia of the History of Modern Psychology 1500
Green Star Japan: Esperanto and the International Language Question, 1880–1945 800
Sentimental Republic: Chinese Intellectuals and the Maoist Past 800
The Martian climate revisited: atmosphere and environment of a desert planet 800
Parametric Random Vibration 800
Building Quantum Computers 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3863397
求助须知:如何正确求助?哪些是违规求助? 3405714
关于积分的说明 10646239
捐赠科研通 3129398
什么是DOI,文献DOI怎么找? 1725887
邀请新用户注册赠送积分活动 831286
科研通“疑难数据库(出版商)”最低求助积分说明 779742