VEC-MNER: Hybrid Transformer with Visual-Enhanced Cross-Modal Multi-level Interaction for Multimodal NER

计算机科学 变压器 编码器 人工智能 杠杆(统计) 相关性 模式 建筑 模式识别(心理学) 自然语言处理 数学 工程类 艺术 社会学 电气工程 视觉艺术 操作系统 电压 社会科学 几何学
作者
Pengfei Wei,H. F. Ouyang,Qintai Hu,Bi Zeng,Guang Feng,Qingpeng Wen
标识
DOI:10.1145/3652583.3658097
摘要

Multimodal Named Entity Recognition (MNER) aims to leverage visual information to identify entity boundaries and categories in social media posts. Existing methods mainly adopt heterogeneous architecture, with ResNet (CNN-based) and BERT (Transformer-based) dedicated to modeling visual and textual features, respectively. However, current approaches still face the following issues: (1) Weak cross-modal correlations and poor semantic consistency. (2) Suboptimal fusion results when visual objects and textual entities are inconsistent. To this end, we propose a Hybrid Transformer with Visual-Enhanced Cross-Modal Multi-level Interaction (VEC-MNER) model for MNER. Specifically, compared to heterogeneous architectures, we propose a new homogeneous Hybrid Transformer Architecture, which naturally reduces the heterogeneity. Moreover, we design the Correlation-Aware Alignment (CAA-Encoder) layer and the Correlation-Aware Deep Fusion (CADF-Encoder) layer, combined with contrastive learning, to achieve more effective implicit alignment and deep semantic fusion between modalities, respectively. We also construct a Correlation-Aware (CA) module that can effectively reduce heterogeneity between modalities and alleviate visual deviation. Experimental results demonstrate that our approach achieves SOTA performance, achieving 74.89% and 87.51% F1-score on Twitter-2015 and Twitter-2017, respectively.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
hu完成签到,获得积分10
1秒前
3秒前
yyd发布了新的文献求助200
7秒前
lianxin完成签到 ,获得积分10
8秒前
cdercder应助Ws路言采纳,获得10
9秒前
依旧完成签到,获得积分10
10秒前
无花果应助TPGMG采纳,获得10
12秒前
cdercder应助nini采纳,获得10
12秒前
13秒前
leclerc完成签到,获得积分10
13秒前
张萌完成签到 ,获得积分10
17秒前
碎觉觉发布了新的文献求助10
18秒前
耶耶完成签到 ,获得积分10
19秒前
张德庆发布了新的文献求助10
19秒前
Dr.Joseph完成签到,获得积分10
20秒前
Sarah完成签到,获得积分10
24秒前
26秒前
渺渺完成签到 ,获得积分10
27秒前
nonory完成签到,获得积分10
28秒前
大模型应助smelly_raccoon采纳,获得10
29秒前
汉1发布了新的文献求助10
31秒前
nini完成签到,获得积分10
31秒前
科研通AI2S应助张德庆采纳,获得10
33秒前
于伊痕完成签到,获得积分10
34秒前
34秒前
zhangyx完成签到 ,获得积分0
39秒前
张德庆完成签到,获得积分10
40秒前
41秒前
hhhhxxxx完成签到,获得积分10
41秒前
CH完成签到,获得积分10
44秒前
英姑应助初景采纳,获得30
44秒前
周_完成签到 ,获得积分10
45秒前
无畏完成签到,获得积分10
47秒前
环境恢复完成签到,获得积分10
47秒前
围城完成签到 ,获得积分10
48秒前
CDI和LIB完成签到,获得积分10
48秒前
希望天下0贩的0应助Betty采纳,获得10
49秒前
充电宝应助科研通管家采纳,获得30
51秒前
Singularity应助科研通管家采纳,获得10
52秒前
顾矜应助科研通管家采纳,获得10
52秒前
高分求助中
液晶指向矢仿真分析数据集 8888
Invited Discussant 63O and 64O 1000
Ideology and Meaning-Making under the Putin Regime 750
Thermal effects on behaviour of clay–structure interface under partial drainage 500
Petrology and Plate Tectonics 500
Writing Systems 500
A Handbook of User Experience Research & Design in Libraries 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 计算机科学 化学工程 生物化学 物理 内科学 复合材料 催化作用 光电子学 物理化学 电极 细胞生物学 基因 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6895521
求助须知:如何正确求助?哪些是违规求助? 8591375
关于积分的说明 18242840
捐赠科研通 6291146
什么是DOI,文献DOI怎么找? 3060287
关于科研通互助平台的介绍 2078642
邀请新用户注册赠送积分活动 2038149