안녕하세요. VMO 연구실 신광용입니다. 2022년 11월 4일 세미나 내용을 간략히 공유해 드립니다. Transformer 및 MLP-Mixer와 같은 general-purpose 아키텍처를 잘 학습할 수 있으면 모델 구조 최적화를 거치지 않고도 높은 성능을 얻을 수 있습니다. NLP 용도로 개발된 Transformer가 ImageNet classification에서 기존 Convolution 기반 모델과 비슷하거나 그 이상의 성능을 얻을 수 있다는것을 보여줬지만 (Vision transformer), 매우 큰 데이타셋에서의 pre-training 그리고 강한 data augmentation에 의존한다는 단점이 있습니다. Pre-training 및 strong data augmentation 없이 Im..