Search
📄

PointBeV: A Sparse Approach to BeV Predictions

카테고리
세부 카테고리
논문
환경
작성 상태
작성 완
앞선 내용
이어지는 내용
파일
BEV Segmentation + Multi Camera 컨셉의 논문 - CVPR 2024
BeV를 해결하는 기존 방법들의 문제점
Attention 기반의 projection learning
perspective view → BEV로의 매핑이 암묵적이라 해석 가능성이 매우 떨어짐
Geometric Projection
LSS의 경우 정확한 depth estimation이 필수
이를 개선하기 위해 BEVDepth, BEVStereo 등의 방법론이 나옴
Feature Pulling Methods
BEVFormer와 SimpleBEV 같은 경우는 depth estimation에 얽메이지 않고 BEV 공간으로 특징을 끌어옴
이러한 방법은 효율적이고 projection 오류에 견고함
해당 논문은 이와 같은 Feature pulling 방법을 통해 문제를 해결하고자 함
Temporal Modelisation 문제
과거 데이터의 공간적 영역만 유지하여, 중요한 정보를 잃을 수 있음
현재 BeV를 이전 카메라 프레임에 투영하는 방법은 많은 과거 프레임이 현재 위치와 관련이 적은 정보를 포함하게 되어, 불필요한 계산과 네트워크 전달이 발생함.
해결법 제시
Dense Grid 대신 Sparse BeV 셀을 사용하여 메모리 사용을 효율적으로 관리.
두 번의 패스를 사용하는 학습 전략으로 관심 영역에 집중하여 계산 효율성을 높임.

PointBeV

1. Sparse Feature Propagation

Sparse Feature Pulling
any backbone으로 각 카메라에서 feature를 뽑아낸다
각 2D BeV 포인트 (x, y)에 대해, BeV 공간에서 수직으로 고르게 간격을 둔 3D 포인트들로 구성된 pillar를구성한다
주어진 3D 기둥 포인트 pzp_z에 대해, 그 포인트를 볼 수 있는 카메라들의 집합 C(pzp_z)를 정의함.
3D 기둥 포인트 pzp_z를 카메라 특징 볼륨에 투영하고, 해당 3D 포인트에 상응하는 특징을 계산하기 위해 Bilinear Interpolation을 수행함.
포인트가 여러 카메라에서 관측된다면, 각 카메라에서 추출된 특징들을 평균화하여 최종 특징을 얻음

2. Coarse and fine training

Coarse pass
공간을 효율적으로 커버하기 위해 균등 샘플링 전략을 사용하여 고정된 수의 포인트 NcoarseN_{coarse}를 선택함.
PointBeV를 통해 이 포인트들을 처리하고, 가장 높은 logit을 가진 anchor point NanchorN_{anchor}를 선택함.
Fine pass
anchor point와 그 주변의 points를 고려하여 밀도화(densification) 함.
밀도화된 포인트들 중 NfineN_{fine} 포인트를 선택하여 네트워크를 통해 예측을 수행함.
두 단계의 출력을 합쳐 교차 엔트로피를 계산

3. Sparse temporal model

과거와 현재를 포함한 T개의 프레임 시퀀스를 고려하여 현재 시점의 BeV 맵을 예측.
현재 맵의 샘플링된 포인트 좌표를 과거 시점의 카메라 이미지로 투영.
각 시간 프레임에 대해 현재 맵의 포인트 특징을 추출.
모든 포인트를 집계하는 대신, logit에 기반하여 선택적으로 과거 포인트를 유지 (특정 threshold를 초과하는 포인트만 유지하고, 그 이하의 포인트는 버림)
각 시간 프레임마다 Sparse한 BeV 맵 생성.
Submanifold Attention module
inspired by window attention from the LiDAR 3D detection method
Submanifold Attention 모듈을 temporal context에서 사용하여 여러 시간 프레임을 융합.
현재 시간 t0t_0에서 이미 처리된 2D BeV 포인트 (x,y)를 쿼리 Qt0,x,yQ_{t_0,x,y}로 표현.
Atk,xk,ykA_{t_k},x_k,y_k는 attention 계수의 소프트맥스
과거 데이터의 희소성 때문에 각 쿼리는 다양한 수의 key랑 value를 가질 수 있음.

Experiments