안녕하세요. 서울대학교 VMO 연구실 신광용입니다. 8/11 세미나 내용 요약입니다.

 

효율적인 학습을 위해 학습 데이터를 랜덤하게 선택하는 대신 데이터를 선별해서 학습하는 방법이 존재하는데, 보통 데이터를 선택할 때 training loss 또는 gradient 값이 큰 데이터 위주로 선택했습니다. 이 논문은 기존 방법들은 학습해서는 안되는 noisy, 혹은 학습 중요도가 낮은 outlier 데이터 위주로 선택하는 단점이 있다는 점을 보여주고, 이 단점들을 개선한 방법을 제안합니다.

 

이 논문의 학습 데이터 선택 기준은 training loss뿐만 아니라, 따로 분리한 holdout 데이터셋에 학습한 모델에서의 loss 값 또한 참고합니다. 후자 lossirreducible holdout loss(IL loss)이라 부르고, IL loss값이 크면 noisy 혹은 outlier 데이터로 판단해서 해당 데이터는 선택순위를 낮게 배정합니다. QMNIST, CIFAR-10/100, CINIC-10, CoLA, SST-2 그리고 Clothing-1M 데이터셋에서 실험을 진행했고, 데이터 개수가 많지만 noise가 많은 Clothing-1M 데이터셋에 가장 효과적이었다고 합니다.

 

감사합니다.