안녕하세요. KDST팀 학부연구생 박태주입니다. 9월 23일 진행했던 논문세미나 내용에 대해 간단하게 요약해보도록 하겠습니다.
CNN에서 downsampling을 하는 것이 이미지의 해상도를 줄이며 중요한 정보만 뽑게됩니다. 기존의 striding은 미분 불가능해서 학습이 불가능해 hyper-parameter로 설정을 해줘야했습니다. 본 논문에서는 미분이 가능한 stride인 "DiffStride" 방식을 제안합니다.
spatial domain의 이미지를 푸리에 변환을 통해 frequency domain으로 표현하고, cropping window(masking function)를 사용하여 downsampling을 진행합니다. 마지막으로 다시 역변환으로 spatial domain으로 이미지를 표현합니다. 이때 backpropagation으로 masking function의 크기를 학습할 수 있어 결과적으로 stride를 학습할 수 있게 됩니다. Audio classification과 Image classification에서 기존의 fixed stride에 비해 "DiffStride"의 성능이 더 잘 나오는 것도 확인할 수 있습니다.
감사합니다.