BEV Segmentation + Multi Camera 컨셉의 논문 - CVPR 2024
BeV를 해결하는 기존 방법들의 문제점
•
Attention 기반의 projection learning
◦
perspective view → BEV로의 매핑이 암묵적이라 해석 가능성이 매우 떨어짐
•
Geometric Projection
◦
LSS의 경우 정확한 depth estimation이 필수
◦
이를 개선하기 위해 BEVDepth, BEVStereo 등의 방법론이 나옴
•
Feature Pulling Methods
◦
BEVFormer와 SimpleBEV 같은 경우는 depth estimation에 얽메이지 않고 BEV 공간으로 특징을 끌어옴
◦
이러한 방법은 효율적이고 projection 오류에 견고함
◦
해당 논문은 이와 같은 Feature pulling 방법을 통해 문제를 해결하고자 함
Temporal Modelisation 문제
•
과거 데이터의 공간적 영역만 유지하여, 중요한 정보를 잃을 수 있음
•
현재 BeV를 이전 카메라 프레임에 투영하는 방법은 많은 과거 프레임이 현재 위치와 관련이 적은 정보를 포함하게 되어, 불필요한 계산과 네트워크 전달이 발생함.
해결법 제시
•
Dense Grid 대신 Sparse BeV 셀을 사용하여 메모리 사용을 효율적으로 관리.
•
두 번의 패스를 사용하는 학습 전략으로 관심 영역에 집중하여 계산 효율성을 높임.
PointBeV
1. Sparse Feature Propagation
Sparse Feature Pulling
•
any backbone으로 각 카메라에서 feature를 뽑아낸다
•
각 2D BeV 포인트 (x, y)에 대해, BeV 공간에서 수직으로 고르게 간격을 둔 3D 포인트들로 구성된 pillar를구성한다
•
주어진 3D 기둥 포인트 에 대해, 그 포인트를 볼 수 있는 카메라들의 집합 C()를 정의함.
•
3D 기둥 포인트 를 카메라 특징 볼륨에 투영하고, 해당 3D 포인트에 상응하는 특징을 계산하기 위해 Bilinear Interpolation을 수행함.
•
포인트가 여러 카메라에서 관측된다면, 각 카메라에서 추출된 특징들을 평균화하여 최종 특징을 얻음
2. Coarse and fine training
Coarse pass
•
공간을 효율적으로 커버하기 위해 균등 샘플링 전략을 사용하여 고정된 수의 포인트 를 선택함.
•
PointBeV를 통해 이 포인트들을 처리하고, 가장 높은 logit을 가진 anchor point 를 선택함.
Fine pass
•
anchor point와 그 주변의 points를 고려하여 밀도화(densification) 함.
•
밀도화된 포인트들 중 포인트를 선택하여 네트워크를 통해 예측을 수행함.
•
두 단계의 출력을 합쳐 교차 엔트로피를 계산
3. Sparse temporal model
•
과거와 현재를 포함한 T개의 프레임 시퀀스를 고려하여 현재 시점의 BeV 맵을 예측.
•
현재 맵의 샘플링된 포인트 좌표를 과거 시점의 카메라 이미지로 투영.
•
각 시간 프레임에 대해 현재 맵의 포인트 특징을 추출.
•
모든 포인트를 집계하는 대신, logit에 기반하여 선택적으로 과거 포인트를 유지 (특정 threshold를 초과하는 포인트만 유지하고, 그 이하의 포인트는 버림)
•
각 시간 프레임마다 Sparse한 BeV 맵 생성.
Submanifold Attention module
inspired by window attention from the LiDAR 3D detection method
•
Submanifold Attention 모듈을 temporal context에서 사용하여 여러 시간 프레임을 융합.
•
현재 시간 에서 이미 처리된 2D BeV 포인트 (x,y)를 쿼리 로 표현.
•
는 attention 계수의 소프트맥스
•
•
과거 데이터의 희소성 때문에 각 쿼리는 다양한 수의 key랑 value를 가질 수 있음.