MsSVT++: Mixed-Scale Sparse Voxel Transformer With Center Voting for 3D Object Detection

体素 计算机科学 滑动窗口协议 人工智能 计算机视觉 散列函数 目标检测 分而治之算法 投票 模式识别(心理学) 算法 窗口(计算) 计算机安全 政治 政治学 法学 操作系统
作者
Jianan Li,Shaocong Dong,Lihe Ding,Tingfa Xu
出处
期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence [Institute of Electrical and Electronics Engineers]
卷期号:46 (5): 3736-3752
标识
DOI:10.1109/tpami.2023.3345880
摘要

Accurate 3D object detection in large-scale outdoor scenes, characterized by considerable variations in object scales, necessitates features rich in both long-range and fine-grained information. While recent detectors have utilized window-based transformers to model long-range dependencies, they tend to overlook fine-grained details. To bridge this gap, we propose MsSVT++, an innovative Mixed-scale Sparse Voxel Transformer that simultaneously captures both types of information through a divide-and-conquer approach. This approach involves explicitly dividing attention heads into multiple groups, each responsible for attending to information within a specific range. The outputs of these groups are subsequently merged to obtain final mixed-scale features. To mitigate the computational complexity associated with applying a window-based transformer in 3D voxel space, we introduce a novel Chessboard Sampling strategy and implement voxel sampling and gathering operations sparsely using a hash map. Moreover, an important challenge stems from the observation that non-empty voxels are primarily located on the surface of objects, which impedes the accurate estimation of bounding boxes. To overcome this challenge, we introduce a Center Voting module that integrates newly voted voxels enriched with mixed-scale contextual information towards the centers of the objects, thereby improving precise object localization. Extensive experiments demonstrate that our single-stage detector, built upon the foundation of MsSVT++, consistently delivers exceptional performance across diverse datasets.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
3秒前
肖兔子哇完成签到 ,获得积分10
3秒前
Anyemzl完成签到,获得积分10
3秒前
zxz发布了新的文献求助30
4秒前
科目三应助77采纳,获得10
4秒前
zhentg完成签到,获得积分0
6秒前
7秒前
研友_gnv61n完成签到,获得积分10
10秒前
李芷柯盐仝完成签到,获得积分20
13秒前
Orange应助淡然又菡采纳,获得10
15秒前
biov给zc的求助进行了留言
17秒前
18秒前
科研通AI2S应助Zyq采纳,获得10
18秒前
唯博完成签到 ,获得积分10
19秒前
科研通AI2S应助安静如波采纳,获得10
21秒前
22秒前
M_发布了新的文献求助10
27秒前
科里斯皮尔举报哩蒜呐求助涉嫌违规
29秒前
丘比特应助ranj采纳,获得10
34秒前
Hello应助陈有权采纳,获得10
34秒前
41秒前
41秒前
搜集达人应助原象采纳,获得10
42秒前
科里斯皮尔举报YYRPSQ求助涉嫌违规
43秒前
healer发布了新的文献求助10
44秒前
洁净的文涛完成签到,获得积分10
44秒前
风趣小小完成签到,获得积分10
44秒前
44秒前
45秒前
mit完成签到 ,获得积分0
45秒前
45秒前
46秒前
陈有权发布了新的文献求助10
50秒前
52秒前
原象完成签到,获得积分10
53秒前
王莹莹完成签到,获得积分10
54秒前
菜菜发布了新的文献求助10
55秒前
典雅的俊驰应助烊玺采纳,获得30
55秒前
科里斯皮尔举报兔子求助涉嫌违规
56秒前
原象发布了新的文献求助10
58秒前
高分求助中
Manual of Clinical Microbiology, 4 Volume Set (ASM Books) 13th Edition 1000
Sport in der Antike 800
De arte gymnastica. The art of gymnastics 600
Berns Ziesemer - Maos deutscher Topagent: Wie China die Bundesrepublik eroberte 500
Stephen R. Mackinnon - Chen Hansheng: China’s Last Romantic Revolutionary (2023) 500
Sport in der Antike Hardcover – March 1, 2015 500
Boris Pesce - Gli impiegati della Fiat dal 1955 al 1999 un percorso nella memoria 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2420755
求助须知:如何正确求助?哪些是违规求助? 2111001
关于积分的说明 5342298
捐赠科研通 1838304
什么是DOI,文献DOI怎么找? 915293
版权声明 561154
科研通“疑难数据库(出版商)”最低求助积分说明 489423