Fairness and Bias In AI

카테고리 없음 2022. 8. 26. 17:53 Posted by syyoon

안녕하세요. 서울대학교 석박통합연구생 유상윤 입니다. 8월 25일 세미나 관련 내용 요약입니다.

 

Fairness는 모호한 개념이지만 Fairness를 achieve하는 방법은 크게 두가지로 나눌 수 있다.

1. Fairness through Blindness.

2. Fairness through Awareness.

 

Fairness through Blindness가 필요한 상황은 단순히 Subpopulation Shift로 인해서 Bias가 발생한 경우로, Sensitive Attribute을 의도적으로 무시하는 것이 Fairness에 도움이 되는 경우이다. Subpopulation Shift 문제란 group별로 sample의 갯수가 다르다거나, entropy가 달라 단순히 전체 loss를 minimization하는 것이 특정 group에 불리하게 작용하는 경우를 나타낸다. 이때 만약에 Bias를 지우는 방향과 model의 성능에 도움이 되는 feature들이 orthogonal하다면 bias를 지우면서 성능 저하 또한 방지할 수 있다. Dataset의 예시로는 색깔과 digit이 통계적으로 연관되어있는 Colored MNIST 같은 것을 볼 수 있다. 이를 위한 방법론의 예시로는 Adversarial Learning이나 Disentangle 과 같이 bias에 관여되는 feature들을 학습하는 것을 최대한 방지하는 방식으로 fairness를 추구한다.

 

Fairness through Awareness가 필요한 상황은 이보다 더 본질적인 문제로, target과 sensitive attribute이 논리적으로 correlate되어 있는 경우이다. 예를 들어 국가에 따라서 우수한 학생들이 지원하는 학과가 다른 상황을 가정해보자. 이때 국가라는 sensitive attribute을 blind하게 무시해버린다면 우수한 학생들이 어디에 지원할지 예측할 수 없을 것이다. 이 경우에는 오히려 국가라는 sensitive attribute을 prediction에 고려를 해야한다. 이를 위한 방법론의 예시로는 Domain Discriminative/Independent Training을 들 수 있다.

 

하지만 많은 경우 두가지 문제가 어느정도 모두 존재해 Unfair한 상황이 만들어 질 수 있다. 이를 가장 보편적, 그리고 해치지 않고 해결하는 방법은 Adaptive Sampling을 하는 것이다. 모든 feature에 aware하게 하면서 특정 group에 불리하게 risk가 minimize되는 것을 방지할 수 있다. 하지만 Modern NN model들의 경우 대부분 high capacity model로 train dataset에 거의 완벽하게 fit하게 된다. 이때 minority group에서의 risk를 다 minimize하였다고 하더라도 generalize 측면에서 더 불리하게 작용한 것이므로 여전히 unfair한 모델이 생성되게 된다. 이를 위해서 G-SMOTE라는 방법이 제시되었는데, 이는 GAN을 통해서 minority group에서도 충분히 general한 decision boundary를 학습할 수 있도록 해준다. 또한 이 논문에서는 GAN 뿐만 아니라 모든 종류의 augmentation이 도움이 된다고 주장하고 있고, 이는 최대한 decision boundary를 모든 group에 대해서 generalize하는 것이 중요함을 나타낸다.

 

감사합니다.

 

Source

Fairness through Awareness - ITCS’ 12

Towards Fairness in Visual Recognition: Effective Strategies for Bias Mitigation - CVPR’ 20

Learning Debiased Representation via Disentangled Feature Augmentation - NeurIPS’ 21

Does enforcing fairness mitigate biases caused by subpopulation shift? - NeurIPS’ 21

Leveling Down in Computer Vision: Pareto Inefficiencies in Fair Deep Classifiers - CVPR’ 22

안녕하세요, KDST 팀원 김동진입니다. 괜찮은 논문을 읽게 되어 간략한 내용 공유해 드립니다.

 

 해당 논문은 Transfer learning에서 fine-tuning이 언제 그리고 왜 linear proving보다 out-of-distribution에 대한 높은 error를 보이는지 이론 및 실험으로 잘 설명한 논문입니다.

 

 논문에서는 fine-tuning 시 feature distortion이 발생하게 되고 이는 큰 out-of-distribution error를 가져와 linear probing에 비해 낮은 성능을 보이게 된다고 주장하였습니다. (feature distortion: feature가 특정 방향으로만 update 되는 현상. 여기서는 ID의 subspace 방향으로만 학습되는 것을 의미합니다.) 또한, fine-tuning에서 발생하는 out-of-distribution error의 lower bound를 간단한 모델에서 수식화하여 1. 초기 head의 initialization이 좋을수록, 2. pretrained model이 좋지 않을수록 낮은 error를 가질 수 있다고 주장하였습니다.

 

흥미로운 논문이라 읽어보시길 추천해 드립니다.

감사합니다.

최근 KDST 팀 근황

카테고리 없음 2022. 7. 10. 15:26 Posted by KDST

올해 들어서 저희 팀이 글을 한번도 못 올렸네요. 

활동이 뜸해진건 아니고 오히려 정반대로 모두들 연구를 열심히 하고 계셔서 글을 올리지 못했습니다. 

특히 다들 학회에 논문 제출을 준비하다보니 아무래도 블로그에 글을 올릴 여력이 없었네요. 

그래도 그 사이에 새로운 분들이 많이 합류해주셨고, 

저희 팀 내부의 학술적 교류는 이전보다 더 다양하고 넓은 범위로 더 끈끈하게 진행하고 있습니다. 

최근 사진들 몇 장을 공유하면서 오늘은 마무리하고,

앞으로 가끔씩이라도 괜찮은 논문 공유하겠습니다. 

 

 

 

 

 

 

안녕하세요. KDST&고려대학교 컴퓨터학과 박사과정생 김유진 입니다.

 

이번에 김수현 박사님, 박도균 연구원님, 김도희 학연님과 제출했던 논문이 AAAI-2022에 accept 되었습니다. 함께 많은 노력을 기울여주신 모든 저자들께 다시한번 감사의 말씀을 전합니다. 논문 제목은 "NaturalInversion: Data-Free Image Synthesis Improving Real-World Consistency" 입니다. 

해당 논문 코드: https://github.com/kdst-team/NaturalInversion

Data-Free 환경에서 만든 이미지 (Ours=NaturalInversion)

본 논문에서 제안하는 NaturalInversion은 Data-free 환경에서 pre-trained classifier를 활용하여 모델이 학습했던 분포와 유사한 이미지를 만들어냅니다. 이미지를 만들기 위하여 첫째, pre-trained된 모델에서 추출한 다양한 크기의 feature map을 활용하는 Feature Transfer Pyramid(FTP) 구조를 사용하여 이미지의  fidelity를 높입니다. 두번째로, mode collapse 문제를 완화시키기 위한 one-to-one generative model을 사용하여 이미지의 다양성을 확보 합니다. 마지막으로, 학습의 안정성 및 색감의 다양성을 확보하기위한 Adaptiave Channel Scalining parameter를 사용합니다. 본 논문에서 제안하는 방식을 활용하여 이미지를 만들 시, 기존 방식보다, 모델을 학습시켰던 original dataset과 유사한 분포의 이미지를 만들 수 있음을 다양한 실험을 통해 증명했습니다. 위 그림에서 첫번째 행에 나열된 이미지들이 본 논문에서 제안한 방식으로 만든 이미지 sample 입니다. 이해를 돕기 위해, 본 논문의 abstract을 아래에 첨부합니다.

 


We introduce NaturalInversion, a novel model inversion-based method to synthesize images that agree well with the original data distribution without using real data. In NaturalInversion, we propose: (1) a Feature Transfer Pyramid which uses enhanced image prior of the original data by combining the multi-scale feature maps extracted from the pre-trained classifier, (2) a one-to-one approach generative model where only one batch of images are synthesized by one generator to bring the non-linearity to optimization and to ease the overall optimizing process, (3) learnable Adaptive Channel Scaling parameters which are end-to-end trained to scale the output image channel to utilize the original image prior further. With our NaturalInversion, we synthesize images from classifiers trained on CIFAR-10/100 and show that our images are more consistent with original data distribution than prior works by visualization and additional analysis. Furthermore, our synthesized images outperform prior works on various applications such as knowledge distillation and pruning, demonstrating the effectiveness of our proposed method.


 

자세한 내용은 2022년 2월에 개최되는 AAAI-2022 conference 후에 소개하겠습니다. 감사합니다. 

안녕하세요, KDST에서 학생 연구원으로 근무 중인 강민수입니다.

 

이번에 강민구 전문연구 요원님, 김동진 학생 연구원님과 함께 Team 'Machine Running'으로 함께 참여했던

성균관대학교 삼성융합의과학원(SAIHST) 디지털 헬스 학과와 디지털 헬스케어 파트너스(DHP)가 공동 주최하는 제 6회 Digital Health Hackathon 2021에서 공동 1위로 최우수상을 수상하였습니다.

 

해커톤 주제는 'bio-health simulation data를 이용하여 치료의 효과를 증가시키는 인과관계가 있는 유전자를 찾아내는 것'입니다.

 

환자 맞춤형 치료는 특히 암 환자의 맞춤형 항암 치료 분야에서 뚜렷한 성과를 보입니다. 이는 암 유전자 분석을 통해 변이 유전자에 타깃이 되는 약물을 찾아내는 과정을 통하여 이루어집니다. 하지만, 환자의 데이터로부터 항암 효과와 인과 관계가 있는 유전자 변이를 찾아내는 과정은 매우 어렵습니다. 암세포에서 유전자 변이는 수천 개 이상이 존재하며, 치료 효과와 유의한 연관성을 분석하기에는 환자의 데이터가 일반적으로 매우 적습니다.

 

이러한 문제를 해결하기 위해 Feature selection을 filter method와 wrapper method를 혼합 사용하여 해결하는 방식을 제안하였습니다. 많은 feature를 1차 적으로 걸러내기 위해 filter method로서 cox regression의 결과를 사용하였습니다. 2차 적으로는 치료에 긍정적인 유전자 변이를 확인하기 위해 wrapper method로서 강화학습 기반의 meta-heuristic feature selection으로 유전자 변이 정보를 찾아내는 방법을 제안하여 사용하였습니다.

 

감사합니다.