When Vision Transformers Outperform ResNets without Pre-training or Strong Data Augmentations (ICLR 2022)
카테고리 없음 2022. 12. 6. 18:24안녕하세요. VMO 연구실 신광용입니다. 2022년 11월 4일 세미나 내용을 간략히 공유해 드립니다.
Transformer 및 MLP-Mixer와 같은 general-purpose 아키텍처를 잘 학습할 수 있으면 모델 구조 최적화를 거치지 않고도 높은 성능을 얻을 수 있습니다. NLP 용도로 개발된 Transformer가 ImageNet classification에서 기존 Convolution 기반 모델과 비슷하거나 그 이상의 성능을 얻을 수 있다는것을 보여줬지만 (Vision transformer), 매우 큰 데이타셋에서의 pre-training 그리고 강한 data augmentation에 의존한다는 단점이 있습니다. Pre-training 및 strong data augmentation 없이 ImageNet-1k classification을 학습하면 ResNet-152는 78.5%의 accuracy를 보여주는 반면 ViT-B/16은 74.6%, Mixer-B/16은 66.4%의 낮은 성능을 보여줍니다. 이는 Convolution이 vision task에서 가지는 inductive bias 장점이 없어서 생기는 단점이라고 합니다. 그러나 Sharpness-Aware Minimization을 통해 이 단점을 상당부분 해결할 수 있다고 합니다.
우선 Transformer와 MLP-Mixer는 ResNet보다 더 sharp한 minima에 converge한다는 점을 flatness의 정도를 측정하는 다양한 metric을 사용해서 보여줍니다. 기존의 optimizer들은 sharp한 minima에 converge하는 경향이 있지만, ICLR 2021 Sharpness-Aware Minimization for Efficiently Improving Generalization에 제안한 sharpness-aware minimization(SAM)을 활용해서 이 단점이 해결된다는것을 보여줍니다. SAM을 적용하면 pre-training이나 strong data augmentation 없이도 Vision Transformer가 ResNet의 성능을 능가한다는것을 보여줍니다. (ResNet-152 78.5%->79.3%, ViT-B/16 74.6%->79.9%, Mixer-B/16 66.4%->77.4%) .새롭게 제안하는 방법론은 없지만 "hot"한 주제이고 contrastive, adversarial, transfer learning 등과의 실험 및 분석을 진행했다는 점에서 accept을 받은것 같습니다.
감사합니다.