안녕하세요. KDST 학부 연구생 공경은입니다. 2022/12/02 논문 세미나 내용을 간략하게 요약해보겠습니다.

 

3D-Lidar, Camera의 Sensor Fusion을 통한 3D object detection에 대한 많은 연구가 진행되어 왔습니다. 이 논문에선 Point-Wise Sensor Fusion 방식의 단점을 지적하고 있습니다. Camera 센서의 경우 bad ilumination 환경에서 매우 부정확하며 이는 Sensor Fusion 과정에서 Noise로 작용 할 수 있습니다. 논문에선 Point-Wise 하게 연결되는 hard-association을 transformer을 통한 soft-association으로 바꿔야 한다고 주장합니다.

TransFusion 모델 구조

모델 구조는 다음과 같습니다. 1. 3D, 2D Backbone -> 2. Query initalization -> 3. Transformer Decoder Layer -> 4. Transformer Decoder Layer with SMCA  단계로 진행 되며 최종적으로 물체 위치에 대한 bounding box, probability 반환하게 됩니다. 

Backbone Layer를 거치며 Input 으로 들어오는 Point Cloud와 Image에 대한 3D, 2D Convolution이 진행되며 Input feature를 추출 하게 됩니다. 이후 Query initalization 단계에선 들어오는 Lidar BEV Features를 대상으로 진행하며 각 Class별 Heatmap을 만들어 모든Class에 대하 객체의 위치 후보군 N개를 추출 합니다. 추출된 x,y 좌표에 위치해 있는 Lidar BEV Features를 Query로 사용하게 됩니다. 

만들어진 Query를 통해 Transformer Decoder Layer에서 self attention과 Lidar BEV Features에 대한 Cross attention을 진행하게 됩니다 . Decoder 이후 FFN을 통해 N개의 query에 대한 bounding box 벡터와 probability 벡터가 추출됩니다. 추출된 좌표를 calibration matrix를 통해 이미지에 매칭 시키고 매칭된 이미지 feature들에 대해 좌표를 중심으로 masking을 진행하게 됩니다. 이후 SMCA Decoder Layer를 통해 masking 된 카메라의 featuremap을 key, value 값으로 활용하여 최종 bounding box의 좌표와 class probability를 구하게 됩니다. 

Nighttime, Degenerated Image Quaility,  Misalignment와 같이 noise가 추가된 상황에서 매우 좋은 성능을 보여주어 실제 외부 환경에서의 Sensor Fusion 기술로  사용 될 수 있을것이라 생각합니다.

자세한 내용은 본문을 참고해 주세요. 감사합니다.