안녕하세요, KDST 팀원 김동진입니다. 괜찮은 논문을 읽게 되어 간략한 내용 공유해 드립니다.

 

 해당 논문은 Transfer learning에서 fine-tuning이 언제 그리고 왜 linear proving보다 out-of-distribution에 대한 높은 error를 보이는지 이론 및 실험으로 잘 설명한 논문입니다.

 

 논문에서는 fine-tuning 시 feature distortion이 발생하게 되고 이는 큰 out-of-distribution error를 가져와 linear probing에 비해 낮은 성능을 보이게 된다고 주장하였습니다. (feature distortion: feature가 특정 방향으로만 update 되는 현상. 여기서는 ID의 subspace 방향으로만 학습되는 것을 의미합니다.) 또한, fine-tuning에서 발생하는 out-of-distribution error의 lower bound를 간단한 모델에서 수식화하여 1. 초기 head의 initialization이 좋을수록, 2. pretrained model이 좋지 않을수록 낮은 error를 가질 수 있다고 주장하였습니다.

 

흥미로운 논문이라 읽어보시길 추천해 드립니다.

감사합니다.