Abstract
기존에 LiDAR 기반의 기능을 강화하기 위해 Voxel 기반의 3D CNN을 사용해왔다. 하지만 이는 느린 inference time, 낮은 orientation 예측 성능이라는 문제점이 있었기에 이를 해결하기 위해 두가지 문제를 개선시킨 Sparse convolution 기법을 소개한다.
그리고 orientation 성능 향상을 위한 angle loss regression 를 연구했고, 새로운 Augmentation 기법을 통해 convergence의 성능과 속도를 개선했다.
1. Introduction
VoxelNet에 대한 간단 설명
먼저 RPN은 Voxel 단위로 PC를 voxel에 grouping하고 linear network를 적용하는 방식인데, 해당 방식은 SOTA지만 컴퓨팅 비용이 너무 커서 실시간 처리에 적합하지 않다.
이를 보완하고자 SECOND이 나왔다.
1.
풍부한 3D 데이터에서 나온 표현들을 적극적으로 활용하여 3D Detection을 진행한다. 이는 KITTI셋에서 다른 dense CNN 보다 4배빠른 train, 3배 빠른 inference 시간을 가진다.
2.
PC 데이터를 사용함에 있어서 얻는 장점은 rotation, scale과 같은 transformation이 쉽다는 것인데, 이는 augmentation이 쉽다는 장점과 이어진다.
3.
추가적으로 새로운 angle loss regression 접근법을 제시한다. 이는 GT와 예측값의 orientation 차이가 인 경우 loss가 커지는 문제를 해결한다.
3. SECOND Detector
3.1 Network architecture
크게 세가지 요소로 나뉘어져 있다.
1.
A voxelwise feature extractor
2.
A sparse convolutional middle layer
3.
RPN (Region Proposal Network)
3.1.1 Point Cloud Grouping
먼저 최대 Voxel의 수만큼 buffer를 할당 → PC 돌면서 각각의 Voxel에 할당 → Voxel 좌표값 및 할당된 점의 개수를 저장한다. Hash table을 통해 voxel을 관리하는데, 특정 점과 연결된 voxel이 생성되지 않은 상태라면 이 값을 table에 올려두는 식으로 진행을 한다.
모든 task에 있어서 voxel 사이즈같은 경우는 = 0.4 = 0.2 = 0.2 m 를 고수한다. 또한 detection을 위한 voxel에 들어갈 수 있는 point의 최대 개수는 35개이다. 예외적으로 pedestrain이나 cyclist의 경우는 상대적으로 작아서 feature추출을 위해선 더 많은 점이 필요하여 45개로 한다.