안녕하세요. KDST 박민철입니다.
컴퓨터 비전 분야에서는 데이터 분포의 불균형, 즉 long-tailed 문제로 인해 소수 클래스에 대한 인식 성능이 떨어지는 문제가 꾸준히 제기되고 있습니다. 이런 문제를 해결하기 위해 여러 연구들이 진행되고 있는데, 이번 포스팅에서는 “Disentangling Label Distribution for Long-tailed Visual Recognition” CVPR 2021의 논문을 통해 제안된 혁신적인 방법을 살펴보도록 하겠습니다.
현실 세계의 데이터는 종종 몇몇 클래스에 데이터가 몰려있고, 일부 클래스는 상대적으로 적은 데이터만을 보유하는 long-tailed 분포를 보입니다. 이런 불균형은 모델이 주로 다수 클래스에 집중하게 만들고, 소수 클래스에 대한 인식 성능은 떨어지게 됩니다. 기존 방법들은 주로 클래스 리샘플링, 비용 민감 학습, 혹은 데이터 증강 기법 등을 활용했지만, 여전히 근본적인 문제 해결에는 한계가 있었습니다.
본 논문은 이러한 한계를 극복하기 위해 라벨 분포 자체를 disentangle하는 접근법을 제안합니다. 즉, 모델이 각 클래스의 특징을 보다 명확하게 분리하여 학습할 수 있도록 함으로써, 소수 클래스에 대한 인식력을 향상시키는 데 초점을 맞춥니다.
논문을 이해하기 앞서 필요한 지식을 살펴봅시다. Softmax regression 즉, 우리가 알고 있는 multinomial logistic regression을 바탕으로 학습한 모델의 conditional probability는 아래와 같이 cross-entropy를 목적 함수를 이용하여 얻어질 수 있습니다.
일반적인 Softmax regression는 이 때, source와 target 라벨 분포가 같을 때 conditional probability의 추정이 유의미하다는 가정을 합니다. 하지만, 실제로 이러한 상황은 Long-tailed 분포에서 위배되는 상황이며, source 라벨분포를 통해 학습된 모델의 conditional probability를 label distribution shift가 존재할 때 강력한 믿음을 갖고 활용하기 어렵습니다.
따라서, 본 논문은 conditional probability를 조정하기 위해 일반적인 방법으로 Post-Compendation 전략을 소개합니다.
이 방법은 최근 Balanced Softmax의 확장된 버전으로 고려할 수 있는데, 위의 Eq. 4를 Softmax에 자연스럽게 흡수시키면, 다음과 같은 source 라벨 분포를 알고 있을 때 target 라벨 분포에 대한 합리적으로 추정 가능한 보상된 Softmax를 얻을 수 있습니다.
본 연구는 PC-Softmax를 베이스라인으로 비교군으로 정의하고, 베이스라인보다 우수한 보상 체계를 구축하기 위해 LADER라는 기술을 제안합니다. 이는 아래의 그림처럼 학습 시 label 분포에 대한 정보를 의도적으로 배제시키는 기술을 핵심으로 합니다.
구체적으로, source 라벨 분포를 학습 시점에 의도적으로 떼어내는 목적함수를 도입하여 아래의 수식처럼, source 라벨 분포 정보가 posterior로부터 detaching되도록 의도합니다.
이는, 모델의 class별 logit 값에 대해 Donsker-Varadhan (DV) representation을 만족하도록 아래와 같은 boundness를 표현하여 최적화 문제를 해결합니다.
3가지 항에 대한 expectation을 구하기 위해 mini-batch로부터 아래와 같은 목적 함수를 정의합니다.
LADER를 regularization으로 하는 cross-entropy를 minimization하는 문제로 학습 데이터를 훈련하는 목적 함수는 다음과 같이 정의되며, 이를 통해 최적화된 모델은 inference 시 target 라벨 분포 (target 라벨 분포는 known이라는 가정)를 직접 대입하여 활용함으로써 posterior를 얻게 됩니다.
Experiment results
해당 방법의 검증 프로토콜은 다음과 같습니다. Imbalance ratio는 N_max/N_min으로 얻어졌습니다.
- 평가 지표: Top-1 정확도를 사용하여 모델의 성능을 측정합니다.
- 데이터셋: CIFAR-100-LT, ImageNet-LT와 Places-LT를 대상으로 합니다.
- 클래스 그룹화: 각 클래스에 속한 이미지 샘플 수에 따라 클래스를 세 그룹으로 나누고, 그룹별 평가 결과를 보고합니다.
- Many: 클래스당 이미지 수가 100장 이상
- Medium: 클래스당 이미지 수가 20장 이상 100장 이하
- Few: 클래스당 이미지 수가 20장 미만
이렇게 그룹화된 각 범주에 대해 별도의 정확도를 보고하여, 클래스별 데이터 수의 편차가 성능에 미치는 영향을 구체적으로 분석합니다.
마지막으로, large-scale long-tailed distribution 데이터셋에 대한 검증입니다.
다음은, LADE의 효과에 의하여, class별 Logit (positive samples)이 optimum인 logC를 따르는 지 ablation study를 한 결과 입니다.
추가적으로, LADE의 효과로부터 취할 수 있는 calibration 이익에 대한 결과입니다.
본 연구는 long-tailed 문제에 대해 새로운 관점을 제시하며, 라벨 분포 자체를 분리하는 접근법으로 소수 클래스 인식 성능을 크게 향상시킬 수 있음을 보여줍니다. 이 연구는 데이터 불균형 문제를 해결하기 위한 다양한 방법론 중 하나로, 향후 다른 분야의 불균형 데이터 문제 해결에도 응용될 수 있을 것으로 기대됩니다.
추가적으로 궁금한 부분은 논문을 참조 부탁드리며, 질문을 댓글로 남겨주시면 함께 고민할 좋은 기회가 될 것으로 생각합니다.
감사합니다.