📄

PointBeV: A Sparse Approach to BeV Predictions

카테고리

세부 카테고리

논문

환경

작성 상태

작성 완

앞선 내용

이어지는 내용

파일

BEV Segmentation + Multi Camera 컨셉의 논문 - CVPR 2024

BeV를 해결하는 기존 방법들의 문제점

•

Attention 기반의 projection learning

◦

perspective view → BEV로의 매핑이 암묵적이라 해석 가능성이 매우 떨어짐

•

Geometric Projection

◦

LSS의 경우 정확한 depth estimation이 필수

◦

이를 개선하기 위해 BEVDepth, BEVStereo 등의 방법론이 나옴

•

Feature Pulling Methods

◦

BEVFormer와 SimpleBEV 같은 경우는 depth estimation에 얽메이지 않고 BEV 공간으로 특징을 끌어옴

◦

이러한 방법은 효율적이고 projection 오류에 견고함

◦

해당 논문은 이와 같은 Feature pulling 방법을 통해 문제를 해결하고자 함

Temporal Modelisation 문제

•

과거 데이터의 공간적 영역만 유지하여, 중요한 정보를 잃을 수 있음

•

현재 BeV를 이전 카메라 프레임에 투영하는 방법은 많은 과거 프레임이 현재 위치와 관련이 적은 정보를 포함하게 되어, 불필요한 계산과 네트워크 전달이 발생함.

해결법 제시

•

Dense Grid 대신 Sparse BeV 셀을 사용하여 메모리 사용을 효율적으로 관리.

•

두 번의 패스를 사용하는 학습 전략으로 관심 영역에 집중하여 계산 효율성을 높임.

PointBeV

1. Sparse Feature Propagation

Sparse Feature Pulling

•

any backbone으로 각 카메라에서 feature를 뽑아낸다

•

각 2D BeV 포인트 (x, y)에 대해, BeV 공간에서 수직으로 고르게 간격을 둔 3D 포인트들로 구성된 pillar를구성한다

•

주어진 3D 기둥 포인트 pzp_zpz​에 대해, 그 포인트를 볼 수 있는 카메라들의 집합 C(pzp_zpz​)를 정의함.

•

3D 기둥 포인트 pzp_zpz​를 카메라 특징 볼륨에 투영하고, 해당 3D 포인트에 상응하는 특징을 계산하기 위해 Bilinear Interpolation을 수행함.

•

포인트가 여러 카메라에서 관측된다면, 각 카메라에서 추출된 특징들을 평균화하여 최종 특징을 얻음

2. Coarse and fine training

Coarse pass

•

공간을 효율적으로 커버하기 위해 균등 샘플링 전략을 사용하여 고정된 수의 포인트 NcoarseN_{coarse}Ncoarse​를 선택함.

•

PointBeV를 통해 이 포인트들을 처리하고, 가장 높은 logit을 가진 anchor point NanchorN_{anchor}Nanchor​를 선택함.

Fine pass

•

anchor point와 그 주변의 points를 고려하여 밀도화(densification) 함.

•

밀도화된 포인트들 중 NfineN_{fine}Nfine​ 포인트를 선택하여 네트워크를 통해 예측을 수행함.

•

두 단계의 출력을 합쳐 교차 엔트로피를 계산

3. Sparse temporal model

•

과거와 현재를 포함한 T개의 프레임 시퀀스를 고려하여 현재 시점의 BeV 맵을 예측.

•

현재 맵의 샘플링된 포인트 좌표를 과거 시점의 카메라 이미지로 투영.

•

각 시간 프레임에 대해 현재 맵의 포인트 특징을 추출.

•

모든 포인트를 집계하는 대신, logit에 기반하여 선택적으로 과거 포인트를 유지 (특정 threshold를 초과하는 포인트만 유지하고, 그 이하의 포인트는 버림)

•

각 시간 프레임마다 Sparse한 BeV 맵 생성.

Submanifold Attention module

inspired by window attention from the LiDAR 3D detection method

•

Submanifold Attention 모듈을 temporal context에서 사용하여 여러 시간 프레임을 융합.

•

현재 시간 t0t_0t0​에서 이미 처리된 2D BeV 포인트 (x,y)를 쿼리 Qt0,x,yQ_{t_0,x,y}Qt0​,x,y​로 표현.

•

Atk,xk,ykA_{t_k},x_k,y_kAtk​​,xk​,yk​는 attention 계수의 소프트맥스

•