卷积神经网络
人工智能
计算机科学
分割
变压器
姿势
计算机视觉
特征(语言学)
模式识别(心理学)
特征学习
工程类
电压
语言学
电气工程
哲学
作者
Jae-Min Chae,Soo-Chahn Lee
出处
期刊:Jeonja gonghakoe nonmunji(2012)
[The Institute of Electronics Engineers of Korea]
日期:2021-12-31
卷期号:58 (12): 49-56
标识
DOI:10.5573/ieie.2021.58.12.49
摘要
본 논문에서는 비전 트랜스포머(Vision Transformer, ViT)와 합성곱 신경망(Convolution Neural Network, CNN) 구조를 결합한 하이브리드 네트워크를 사용하여 단안 카메라 자세 추정을 위한 비지도 학습 기법을 제안한다. 분류(Classification) 및 분할(Segmentation) 분야에서 최고의 성능을 보여주는 ViT에 영감을 받아서 단안 카메라 자세 추정 문제에 대해 추론하는 부분인 ViT와 Feature를 생성하는 부분인 CNN을 결합하였다. CNN을 통해 생성된 Feature들을 일정한 크기의 패치들로 분할하고 분할된 각 패치들간의 연관성을 ViT의 Self-Attention 연산을 통해 계산하였다. 이때 기존의 ViT와 달리 Self-Attention 연산을 적용 시 패치들의 차원을 점진적으로 축소하여 Self-Attention의 연산량을 감소시켰다. 최종적으로 두 프레임간의 이동, 회전 정보인 6개의 추정값 6DoF를 얻도록 하였다. 실험을 통해 대부분 컨볼루션 층으로만 구성된 이전 CNN 구조와 비교하여 하이브리드 네트워크를 적용하였을 때 성능향상이 있음을 증명하였다. 본 논문은 카메라 자세 추정 문제에 대해 트랜스포머 네트워크와 Self-Attention기반 기법들이 응용될 수 있는 잠재성을 보인다.
科研通智能强力驱动
Strongly Powered by AbleSci AI