WHY
unitr이든 mamba든 베이스라인 모델에 temporal를 적용할 부분은 찾았는데 이 정보들을 어떻게 섞어야 잘 활용했다고 소문이 날지 모르기 때문에 사전 조사 진행
1. MotionNet
•
특징
◦
Spatio-temporal pyramid network
▪
Input: PC → BEV로 변환한 2D 데이터
▪
hierarchical 구조
▪
2d, 1d conv로 이뤄져있어서 연산량 적음.
◦
unitr에 적용한다면
▪
어차피 모든 과정은 BEV pooling을 통해 2D 데이터로 만들어진다. 그렇다면 해당 feature를 이 네트워크에 적용할 수도 있지 않을까라는
2. BEVFormer
•
Input: (t-1)의 BEV feature, BEV Query
◦
BEV Query:
2D shape /
•
+ TempBEV
◦
아키텍쳐를 보니 bevformer에서 많이 따온 듯한 느낌.