이번 글에서는 NIPS 2020에 oral로 선정된 Compositional Explanations of Neurons란 논문을 소개합니다. 해당 논문은 XAI의 interpretability 연구 중 하나로 제안하는 방식을 통해 explanation을 생성하고 이를 통해 Vision과 NLP 딥러닝 모델에 대한 분석을 진행합니다.

 

History

 기존의  Neural network interpretability 연구들은 사람에게 친숙한 explanation을 생성하기 위해 모델 시각화 정보나 입력 수동 검사를 해야하는 한계가 있었습니다. 따라서 최근 “probing datasets”을 사용하여 데이터의 레이블을 이용한 자동 설명 생성 방식이 등장하였습니다. 하지만 이러한 방식은 뉴런의 기능을 atomic한 concept들로 표현하여 지나치게 간단하게 설명합니다. 본 논문은 concept들의 논리적 조합을 통해 더 구체화된 설명을 자동으로 생성하는 방법을 제안합니다.

 

Proposed Procedure

 이 논문에서 제안하는 방법은 Network dissection 논문에서 제안하는 방식을 확장하여 연구되었습니다.

 

1. Network Dissection

 Network dissection은 입력에 대해 특정 뉴런(n)의 activation과 높은 유사도를 지닌 concept(C)을 해당 뉴런의 기능으로 여깁니다. Network dissection에서 제안하는 방식을 수식화하면 아래와 같습니다.

 C는 atomic concept으로 함수로써 입력된 x가 해당 concept의 요소라면 1을 아닐 땐 0을 반환합니다. 유사도 함수(δ)는 모든 입력 x에 대한 C의 값과 뉴런의 activation에 threshold를 적용한 binary mask(Mn)의 IOU를 구합니다.

2. Compositional search

  Network dissection의 방식은 각각의 concept 하나에 관해서만 설명할 수 있습니다. 저자가 제안하는 방식은 concept들을 logical form으로 표현하고, logical form들을 여러 개의 조합 연산자(ω)를 사용해 확장된 logical form을 만들며 explanation을 생성합니다. (탐색 방식으로는 beam search를 이용하였습니다.)

 조합 연산자는 vision 모델에서는 AND, OR, NOT을 사용하고 NLP 모델에선 AND, OR, NOT과 Neighbor를 사용하였습니다. Neighbor 연산자는 NLP 모델의 뉴런이 유사한 의미를 지닌 단어들에 대해서도 활성화되는 것을 감지하기 위해 사용되었으며, 특정 임베딩 공간에서 하나의 단어 concept과 가장 가까운 5개의 단어 concept을 추출하여 OR 연산을 진행합니다. 

 

Experiment

 저자는 compositional explanation을 사용하여 3가지 의문에 대해 image classification과 Natural Language Inferrence(NLI) task에서의 답변과 분석을 진행했습니다. 

 

1. 뉴런들이 조합된 개념들을 학습하는가?

  • Image Classification : Vision 모델에서 의미 있는 추상화(abstraction)를 학습한 뉴런들과 연관되지 않은 다른 concept들로 학습된 뉴런들이 나타났습니다. 또한, 논문에서는 의미있는 추상화를 학습한 뉴런을 3가지(1. 어휘적 의미가 일관된 추상화, 2. 어휘적 의미가 일관되지 않은 추상화, 3. 특성화된 추상화)로 분류합니다.
  • NLI: 대부분의 뉴런은 간단한 어휘적인 특징들로 학습된 것을 확인하였습니다. 이때의 어휘적 특징들은 class 예측과 높은 PMI(pointwise mutual information)을 가졌습니다. 이러한 얕은 heuristic으로 데이터의 편향이 학습되어 모델은 out-of-distribution data에 대해 좋은 예측을 못하게 된다 합니다.

 

 

2. 해석 가능한 뉴런들이 모델의 성능에 영향을 미치는가?

 이 질문에 답하기 위해 특정 뉴런이 강하게 activation 되었을 때(Mn(x) = 1)의 모델 성능을 측정하였습니다.

  • Image Classification: 해석 가능성이 높은 뉴런이 활성화 되었을 때 모델의 높은 성능을 나타내었습니다. 
  • NLI: image classification과 반대의 경향을 보였습니다. Vision task와 다르게 NLI에서는 제안한 방법에서 사용한 concept들은 모델의 분류에 필요한 정보에 비해 너무 간단합니다. 따라서 max formula length를 키울수록 결정 규칙들은 그저 데이터의 그럴싸한 상관관계로 만들어집니다.(이는 max formula lenth를 증가할수록 모델 성능과의 피어슨 상관계수 값이 음의 방향으로 커지는 것으로 알 수 있습니다.) 따라서 저자는 적합한 concept space를 정의하면 task 성능과 뉴런의 행동 간의 상관관계를 잘 구별할 수 있을 것이라 합니다.

 

3. 생성된 explanation을 이용하여 모델의 행동을 변경할 수 있는가?

 마지막 layer의 뉴런과 분류할 class 간의 weight를 이용하여 모델의 행동을 조작할 수 있는 “copy-paste” adversarial example을 생성할 수 있음을 보였습니다.

 

 

Conclusion

 본 논문에서 제안된 방법은 뉴런의 기능에 대한 compositional explanation을 자동 생성하여 정확한 해석을 할 수 있게 해 줍니다. 또한, 이렇게 생성된 설명을 통해 1. 뉴런에 학습된 추상화, 다의미성과 학습된 그럴싸한 상관관계를 판단할 수 있게 하고 2. downstream task에서의 성능에 영향을 미칠 뉴런을 구별할 수 있게 해주며 3. 모델의 예측을 변경할 수 있는 “copy-paste” adversarial example을 만들 수 있습니다.

 

자세한 내용은 full paper를 참고하거나 댓글로 남겨주세요.

 

감사합니다.

Dongjin Kim