안녕하세요. KDST팀 학부연구생 박태주입니다. 12월 9일 진행했던 논문세미나 내용에 대해 간단하게 요약해보도록 하겠습니다.

 

continual learning(CL)은 sequence of tasks를 학습하면서도  previous tasks에서 배운 내용들을 까먹지 않는 것을 목표로합니다. 하지만 기존 연구들은 supervised task에 국한되어 있어, 이 논문에서는 continual learning을 unsupervised representation learning에 접목시킵니다.

 

Unsupervised representation learning을 위해서는 "SimSiam"과 "BarlowTwins" loss term을 사용했습니다. 그리고 continual learning에 적용하기 위해서 SI, PNN, DER과 같은 methods들을 사용하고, catastrophic forgetting을 잘 해결하기 위해 mixup을 활용한 LUMP method 또한 제시하였습니다.

 

실험 결과에서도 모든 데이터 셋에서 Unsupervised Continual Learning(UCL)이 Supervised Continual Learning(SCL)보다 accuracy가 높고 forgetting이 낮은 것을 확인할 수 있습니다. 또한 few-shot training, out-of-distribution tasks 실험에서도 UCL이 더 높은 성능을 보였습니다. feature maps을 시각화한 결과에서도 UCL이 더 구분가능한 특성을 보이며 forgetting에도 잘 대응했습니다. 또한 loss landscape을 보았을 때도 UCL LUMP가 catastrophic forgetting을 잘 해결한다는 것을 보였습니다.

 

감사합니다.

Two papers accepted at AAAI 2023

카테고리 없음 2022. 12. 10. 23:43 Posted by KDST

내년 2월에 열리는 AAAI 2023 학회에 저희 팀 관련하여 아래 두 논문이 채택되었습니다. 

모두들 열심히 한 결과라고 생각하고 내년에는 더욱 좋은 소식들이 있도록 열심히 하겠습니다. 

 

- GuidedMixup: An Efficient Mixup Strategy Guided by Saliency Maps

- Balanced Column-wise Block Pruning for Maximizing GPU Parallelism

 

 

안녕하세요. VMO 연구실 신광용입니다. 2022년 11월 4일 세미나 내용을 간략히 공유해 드립니다.

 

Transformer 및 MLP-Mixer와 같은 general-purpose 아키텍처를 잘 학습할 수 있으면 모델 구조 최적화를 거치지 않고도 높은 성능을 얻을 수 있습니다. NLP 용도로 개발된 Transformer가 ImageNet classification에서 기존 Convolution 기반 모델과 비슷하거나 그 이상의 성능을 얻을 수 있다는것을 보여줬지만 (Vision transformer), 매우 큰 데이타셋에서의 pre-training 그리고 강한 data augmentation에 의존한다는 단점이 있습니다. Pre-training 및 strong data augmentation 없이 ImageNet-1k classification을 학습하면 ResNet-152는 78.5%의 accuracy를 보여주는 반면 ViT-B/16은 74.6%, Mixer-B/16은 66.4%의 낮은 성능을 보여줍니다. 이는 Convolution이 vision task에서 가지는 inductive bias 장점이 없어서 생기는 단점이라고 합니다. 그러나 Sharpness-Aware Minimization을 통해 이 단점을 상당부분 해결할 수 있다고 합니다.

 

우선 Transformer와 MLP-Mixer는 ResNet보다 더 sharp한 minima에 converge한다는 점을 flatness의 정도를 측정하는 다양한 metric을 사용해서 보여줍니다. 기존의 optimizer들은 sharp한 minima에 converge하는 경향이 있지만, ICLR 2021 Sharpness-Aware Minimization for Efficiently Improving Generalization에 제안한 sharpness-aware minimization(SAM)을 활용해서 이 단점이 해결된다는것을 보여줍니다. SAM을 적용하면 pre-training이나 strong data augmentation 없이도 Vision Transformer가 ResNet의 성능을 능가한다는것을 보여줍니다. (ResNet-152 78.5%->79.3%, ViT-B/16 74.6%->79.9%, Mixer-B/16 66.4%->77.4%) .새롭게 제안하는 방법론은 없지만 "hot"한 주제이고 contrastive, adversarial, transfer learning 등과의 실험 및 분석을 진행했다는 점에서 accept을 받은것 같습니다.

 

감사합니다.

안녕하세요. KDST 학부 연구생 공경은입니다. 2022/12/02 논문 세미나 내용을 간략하게 요약해보겠습니다.

 

3D-Lidar, Camera의 Sensor Fusion을 통한 3D object detection에 대한 많은 연구가 진행되어 왔습니다. 이 논문에선 Point-Wise Sensor Fusion 방식의 단점을 지적하고 있습니다. Camera 센서의 경우 bad ilumination 환경에서 매우 부정확하며 이는 Sensor Fusion 과정에서 Noise로 작용 할 수 있습니다. 논문에선 Point-Wise 하게 연결되는 hard-association을 transformer을 통한 soft-association으로 바꿔야 한다고 주장합니다.

TransFusion 모델 구조

모델 구조는 다음과 같습니다. 1. 3D, 2D Backbone -> 2. Query initalization -> 3. Transformer Decoder Layer -> 4. Transformer Decoder Layer with SMCA  단계로 진행 되며 최종적으로 물체 위치에 대한 bounding box, probability 반환하게 됩니다. 

Backbone Layer를 거치며 Input 으로 들어오는 Point Cloud와 Image에 대한 3D, 2D Convolution이 진행되며 Input feature를 추출 하게 됩니다. 이후 Query initalization 단계에선 들어오는 Lidar BEV Features를 대상으로 진행하며 각 Class별 Heatmap을 만들어 모든Class에 대하 객체의 위치 후보군 N개를 추출 합니다. 추출된 x,y 좌표에 위치해 있는 Lidar BEV Features를 Query로 사용하게 됩니다. 

만들어진 Query를 통해 Transformer Decoder Layer에서 self attention과 Lidar BEV Features에 대한 Cross attention을 진행하게 됩니다 . Decoder 이후 FFN을 통해 N개의 query에 대한 bounding box 벡터와 probability 벡터가 추출됩니다. 추출된 좌표를 calibration matrix를 통해 이미지에 매칭 시키고 매칭된 이미지 feature들에 대해 좌표를 중심으로 masking을 진행하게 됩니다. 이후 SMCA Decoder Layer를 통해 masking 된 카메라의 featuremap을 key, value 값으로 활용하여 최종 bounding box의 좌표와 class probability를 구하게 됩니다. 

Nighttime, Degenerated Image Quaility,  Misalignment와 같이 noise가 추가된 상황에서 매우 좋은 성능을 보여주어 실제 외부 환경에서의 Sensor Fusion 기술로  사용 될 수 있을것이라 생각합니다.

자세한 내용은 본문을 참고해 주세요. 감사합니다.

안녕하세요. KDST팀 학부연구생 박태주입니다. 9월 23일 진행했던 논문세미나 내용에 대해 간단하게 요약해보도록 하겠습니다. 

 

CNN에서 downsampling을 하는 것이 이미지의 해상도를 줄이며 중요한 정보만 뽑게됩니다. 기존의 striding은 미분 불가능해서 학습이 불가능해 hyper-parameter로 설정을 해줘야했습니다. 본 논문에서는 미분이 가능한 stride인 "DiffStride" 방식을 제안합니다. 

 

spatial domain의 이미지를 푸리에 변환을 통해 frequency domain으로 표현하고, cropping window(masking function)를 사용하여 downsampling을 진행합니다. 마지막으로 다시 역변환으로 spatial domain으로 이미지를 표현합니다. 이때 backpropagation으로 masking function의 크기를 학습할 수 있어 결과적으로 stride를 학습할 수 있게 됩니다. Audio classification과 Image classification에서 기존의 fixed stride에 비해 "DiffStride"의 성능이 더 잘 나오는 것도 확인할 수 있습니다. 

 

감사합니다.