안녕하세요 KDST 학부연구생 구미진입니다.

 

오늘 소개해드릴 논문은 CVPR 2023 Highlight 논문인 Feature Separation and Recalibration for Adversarial Robustness 입니다.

 

본 논문에서는 적대적 공격에 대한 방어 방법 중 Adversarial Training 방법과 결합해서 사용할 수 있는 FSR 모듈을 제안했습니다.

 

Motivation

딥러닝 모델은 위 그림처럼 이미지의 Feature representation을 학습하여 의사 결정을 내립니다. 적대적 공격은 이미지에 미세한 노이즈를 추가하여 모델의 오분류를 유도하는데, 기존의 방어 방법은 변화가 생긴 활성화를 그냥 무시함으로써 공격에 대응하고자 했습니다. 그러나 이 방법은 중요한 정보의 손실을 초래할 우려가 있어, 이 논문에서는 더 어댑티브한 방법을 제안합니다.

 

적대적 공격으로 인한 활성화의 변화를 무시하는 대신, 해당 변화에서 유용한 정보를 추출하여 모델이 올바른 예측을 할 수 있도록 재보정하는 새로운 방식을 도입했습니다.

 

본 논문의 contribution은 다음과 같습니다.

1. 중요한 정보가 소실되는 기존의 방법에 대한 새로운 접근 방식을 제안함

2. easy-to-plugin, 다른 adversarial training method와 결합해서 사용 가능함

3. White box attack과 Black box attack 모두에 대한 효과적인 방어 성능을 실험적으로 입증함

 

Proposed Approach

레이어 간에 FSR 모듈을 추가하여 Feature를 robust feature와 non-robust feature로 분리하고, non-robust feature를 재보정하여 모델 예측에 사용합니다.

 

모듈은 크게 separation stage와 recalibration stage로 나뉩니다. Separation network S는 robustness map과 dot product 연산을 통해 robust, non-robust feature를 분리하며, Separation loss를 활용해 학습됩니다. Recalibration network R은 non-robust feature에서 중요한 정보를 추출하고, recalibration loss를 통해 학습됩니다.

 

각각을 어떻게 구현한 건지 살펴보면 다음과 같습니다.

Separation Stage
Recalibration Stage

 

FSR module은 다른 네트워크와 결합되어 end-to-end로 학습되어 사용할 수 있으므로 다른 Adversarial training framework에도 같이 사용할 수 있습니다. 이때 사용하는 Loss function은 classification, feature separation, recalibration loss를 모두 합쳐 놓은 형태입니다.

 

Limitation

Adversarial defense의 고질적인 문제이기도 한데, 바로 natural image에 대한 성능 저하가 있다는 것이 이 연구의 한계로 언급됩니다. FSR 모듈은 모든 이미지에 adversarial perturbation이 있다는 가정 하에 동작하므로, natural image의 정확도는 감소합니다. 하지만 occasionally하게 데이터셋과 adversarial training method에 따라 오히려 정확도가 증가하는 경우도 있긴 했습니다.