DFormer++: Improving RGBD Representation Learning for Semantic Segmentation

计算机科学 编码(内存) 人工智能 分割 RGB颜色模型 编码 代表(政治) 模式识别(心理学) 图像分割 计算机视觉 编码(集合论) 语义学(计算机科学) 特征提取 序列(生物学) 判别式 可视化 自然语言处理 尺度空间分割 特征学习 钥匙(锁) 解码方法 图像(数学) 建筑 任务分析 深度学习 语义映射
作者
Bo-Wen Yin,Jiao-Long Cao,Dan Xu,Ming-Ming Cheng,Qibin Hou
出处
期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence [IEEE Computer Society]
卷期号:PP: 1-14 被引量:3
标识
DOI:10.1109/tpami.2026.3658114
摘要

We explore the potential of pretrain-and-finetune manner on the RGB-D semantic segmentation to solve the common mismatch problem in this field. Specifically, we present DFormer++, a novel RGB-D pretrain-and-finetune framework to learn transferable representations for RGB-D semantic segmentation. This paper has two vital innovations. 1) Framework perspective: Different from the existing methods that finetune RGB pretrained backbone to the RGB-D scenes, we pretrain the backbone using image-depth pairs from ImageNet-1K, and hence the model is endowed with the capacity to encode RGB-D representations; 2) Architecture perspective: Our model comprises a sequence of RGB-D attention blocks, which are tailored for encoding both RGB and depth information through a novel attention mechanism. Our DFormer++ avoids the mismatched encoding of the 3D geometry relationships in depth maps by RGB pretrained backbones, which widely lies in previous works but has not been resolved. Meanwhile, the tailored architecture greatly reduces redundant parameters for encoding RGB-D data and achieves efficient and accurate perception. Experimental results show that our DFormer++ achieves new cutting-edge performance on three popular RGB-D semantic segmentation benchmarks. Our code is available at: https://github.com/VCIP-RGBD/DFormer.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Sun1c7发布了新的文献求助20
刚刚
1秒前
LT发布了新的文献求助10
2秒前
众生平等发布了新的文献求助10
2秒前
桐桐应助刘菲清采纳,获得20
4秒前
4秒前
ppp发布了新的文献求助10
4秒前
5秒前
Akim应助善良板栗采纳,获得10
7秒前
7秒前
众生平等完成签到,获得积分10
8秒前
JingtaoY完成签到,获得积分10
8秒前
汉堡包应助蛋堡采纳,获得10
10秒前
Karinaa发布了新的文献求助10
10秒前
nacheol发布了新的文献求助10
11秒前
Akim应助aaao采纳,获得10
12秒前
12秒前
13秒前
汉堡包应助李星玥采纳,获得10
14秒前
LHY完成签到,获得积分10
14秒前
15秒前
大熊应助美式加热采纳,获得10
16秒前
英俊的小蝴蝶完成签到,获得积分10
16秒前
小蘑菇应助东晓采纳,获得30
17秒前
17秒前
luanzhaohui发布了新的文献求助10
18秒前
18秒前
善良板栗完成签到,获得积分10
18秒前
猫咪也疯狂应助Danisy采纳,获得10
18秒前
古鲁鱼发布了新的文献求助10
20秒前
蛋堡发布了新的文献求助10
20秒前
CipherSage应助SIXGOD采纳,获得10
21秒前
丘比特应助linman采纳,获得10
21秒前
小蘑菇完成签到,获得积分10
21秒前
斯坦福没有冬天完成签到,获得积分10
21秒前
22秒前
孙月林完成签到,获得积分10
22秒前
p1发布了新的文献求助10
23秒前
岳先生完成签到 ,获得积分10
24秒前
24秒前
高分求助中
Principles of Economics, 11th Edition 10000
Prescott's Microbiology: 2026 Release ISE 10000
University Physics with Modern Physics, 16th edition 10000
Cronologia da história de Macau 5000
Environmental Leverage in Times of Climate Crisis: Product Standards, Carbon Border Measures and Preferential Trade Agreements 1000
Interactions of Vowel Quality and Prosody in East Slavic 1000
Matrix Methods in Data Mining and Pattern Recognition 510
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 内科学 物理 复合材料 催化作用 细胞生物学 无机化学 光电子学 物理化学 电极 基因
热门帖子
关注 科研通微信公众号,转发送积分 7156852
求助须知:如何正确求助?哪些是违规求助? 8801249
关于积分的说明 18599791
捐赠科研通 6758119
什么是DOI,文献DOI怎么找? 3161625
关于科研通互助平台的介绍 2296566
邀请新用户注册赠送积分活动 2136370