안녕하세요 KDST 팀의 강민수입니다.
오늘 소개해드릴 논문은 Facebook AI 팀에서 발표한 Simsiam architecture를 활용하여 unsupervised learning 방식 중 하나인 contrastive learning 을 하는 방식입니다.
전통적인 contrastive learning method들은 한 이미지를 대상으로 strong augmentation을 취해서 유사한 이미지를 만듭니다. 이후, augmentation된 이미지들은 서로 같게, 서로 다른 instance의 이미지는 embedding vector가 다르게 학습함으로서 feature representation learning을 하게 됩니다.
이런 상황에서 model을 shared해서 모두 같은 이미지를 흘리는 방식도 존재하지만 (SimCLR), BYOL의 논문은 EMA방식으로 encoder로부터 update되는 momentum encoder를 두고 predictor라는 별도의 network를 추가하여 학습하는 방식도 존재하였습니다.
SimSiam은 stopgradient를 활용하여 encoder하나와 predictor network를 활용하여 학습하는 방식을 취했습니다. 이를 통해 contrastive learning의 문제인 representation collapsing을 막을 수 있음을 보였습니다.
또한, EMA대신에 MLP인 predictor network를 활용하고 stopgradient로 update함으로써 학습이 더 안정적으로 잘되고, Batch size를 줄여도 학습이 가능하다고 말하고 있습니다. (기존 contrastive learning은 큰 batch size가 필수이고 LARS optimizer를 써야했고, SGD를 사용불가능했다고 말합니다.)
자세한 내용은 본문을 참조해주시기 바랍니다.