Multi-Modal Feature Pyramid Transformer for RGB-Infrared Object Detection

人工智能 计算机科学 计算机视觉 RGB颜色模型 棱锥(几何) 变压器 特征(语言学) 模式识别(心理学) 情态动词 目标检测 特征提取 模式 工程类 数学 社会学 高分子化学 电气工程 社会科学 语言学 哲学 化学 几何学 电压
作者
Yaohui Zhu,Xiaoyu Sun,Miao Wang,Hua Huang
出处
期刊:IEEE Transactions on Intelligent Transportation Systems [Institute of Electrical and Electronics Engineers]
卷期号:24 (9): 9984-9995 被引量:2
标识
DOI:10.1109/tits.2023.3266487
摘要

RGB-Infrared multi-modal object detection utilizes diverse and complementary information, showing some advantages in intelligent transportation field. The main challenge of RGB-Infrared object detection is how to fuse the two modalities. The difficulty of fusion is reflected in two aspects: 1) large visual differences between modalities make it difficult to learn effective complementary features, 2) some misaligned RGB-Infrared images increase the difficulty of fusion. To this end, based on feature pyramid commonly used in object detection, we propose Multi-modal Feature Pyramid Transformer (MFPT) to fuse the two modalities. The proposed MFPT learns semantic and modal complementary information to enhance each modal features via intra-modal feature pyramid transformer and inter-modal feature pyramid transformer. The intra-modal feature pyramid transformer enables features to interact across space and scales, improving the semantic representations of features in each modality. The inter-modal feature pyramid transformer conducts feature interaction between modalities, enabling each modality to learn complementary features from other modalities. Meanwhile, the inter-modal feature pyramid transformer can also learn distance independent dependencies between modalities, which are not sensitive to misaligned images. Furthermore, a local attention mechanism is introduced within different windows into MFPT to achieve efficient correlation between regions of different scales or different modalities. Experimental results on two RGB-Infrared detection datasets demonstrate the proposed method is superior to state-of-the-art methods.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
橘温茶暖完成签到 ,获得积分10
1秒前
bioglia完成签到,获得积分10
2秒前
阳光发布了新的文献求助10
4秒前
ding应助luxiang采纳,获得10
5秒前
7秒前
wanci应助BC22采纳,获得10
9秒前
小黄发布了新的文献求助10
11秒前
13秒前
Jesica完成签到,获得积分10
13秒前
Hello应助白白采纳,获得10
13秒前
14秒前
李白关注了科研通微信公众号
15秒前
啦啦啦啦啦啦完成签到,获得积分10
20秒前
23秒前
斯文败类应助云山采纳,获得30
23秒前
小王想要进20完成签到,获得积分10
24秒前
天天小女孩完成签到 ,获得积分10
27秒前
27秒前
陶醉的翅膀完成签到,获得积分10
28秒前
luxiang发布了新的文献求助10
28秒前
qqqq22完成签到,获得积分10
28秒前
30秒前
tonghau895完成签到 ,获得积分10
32秒前
32秒前
李白发布了新的文献求助10
33秒前
33秒前
nagisa发布了新的文献求助10
34秒前
xiao柒柒柒完成签到,获得积分10
36秒前
李爱国应助悠悠采纳,获得10
40秒前
41秒前
BC22完成签到,获得积分10
42秒前
土豪的鸿煊完成签到,获得积分10
43秒前
斯文败类应助luxiang采纳,获得10
44秒前
springwyc发布了新的文献求助10
44秒前
45秒前
顺心的筮完成签到,获得积分10
45秒前
九月发布了新的文献求助10
45秒前
彩色书兰发布了新的文献求助10
46秒前
害羞哈密瓜完成签到 ,获得积分10
48秒前
无泽完成签到,获得积分10
49秒前
高分求助中
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 1000
Corrosion and Oxygen Control 600
Python Programming for Linguistics and Digital Humanities: Applications for Text-Focused Fields 500
Heterocyclic Stilbene and Bibenzyl Derivatives in Liverworts: Distribution, Structures, Total Synthesis and Biological Activity 500
重庆市新能源汽车产业大数据招商指南(两链两图两池两库两平台两清单两报告) 400
Division and square root. Digit-recurrence algorithms and implementations 400
行動データの計算論モデリング 強化学習モデルを例として 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2547487
求助须知:如何正确求助?哪些是违规求助? 2176273
关于积分的说明 5603229
捐赠科研通 1897045
什么是DOI,文献DOI怎么找? 946546
版权声明 565383
科研通“疑难数据库(出版商)”最低求助积分说明 503793