Introduction to Quantum Computing

카테고리 없음 2022. 9. 2. 16:45 Posted by Junsu Kim

안녕하세요 인턴 김준수입니다. 2022년 9월 22일 세미나 내용을 간략히 요약해드리겠습니다.

 

일반적인 컴퓨터는 exponential complexitiy를 가지는 문제들을 푸는데 한계가 존재하고, 이를 양자컴퓨팅을 통해 극복할 수 있습니다. 양자컴퓨팅은 기존의 정보단위인 bit대신 quantum bit (qubit)를 사용하고, 양자역학의 2가지 특성인 superposition과 entanglement를 이용합니다. superposition은 qubit 하나가 0또는 1의 상태를 동시에 가질 수 있음을 의미하고, entanglement는 서로 다른 큐빗들이 서로의 state에 간섭할 수 있음을 뜻합니다. 

 

위 두가지 특성을 통해 여러가지 문제를 efficient하게 풀 수 있는데, 예를 들면 주어진 함수가 constant output을 내는 함수인 지, 아니면 50% 확률로 0또는 1의 output을 가지는 balanced 함수인 지 알아내는 Deutsch-Jozsa 알고리즘이 있습니다. classical computer의 경우 worst case 일 때, 주어진 인풋의 50% + 1번을 더 연산해야 주어진 함수가 balanced 인지 constant인지 알 수 있지만, 양자컴퓨팅으론 단 한번의 연산 만으로 구분할 수 있게됩니다. 

이에 대한 증명은 아래 링크로 첨부하겠습니다.

https://qiskit.org/textbook/ch-algorithms/deutsch-jozsa.html

 

Deutsch-Jozsa Algorithm

A university quantum algorithms/computation course supplement based on Qiskit

qiskit.org

 

비록 양자컴퓨팅을 통해 몇몇 문제들을 polynomial time 안에 풀 수 있다는 것은 증명되었지만, 실제 알고리즘을 돌리기 위해선 지금 보다 훨씬 더 많은 qubit의 개수와 noise-tolerant한 gate, qubit, system이 개발 되어야 합니다. 특히, quantum algorithm을 noise-robust한 qubit에 mapping하고, swap gate insertion을 줄일 수 있는 intelligent scheduling, compilation 방식들이 architecture에서 활발히 연구되고 있습니다.

 

당장은 약 100여개의 qubit을 사용할 수 있지만, 구글이나 IBM 같은 빅테크 기업들의 전폭적인 투자와 지원이 있기 때문에 10-20년 뒤에는 특정 어플리케이션들에 대해 양자컴퓨팅을 적극적으로 활용할 수 있을거라 기대됩니다.

 

감사합니다.

 

안녕하세요. 서울대학교 VMO 연구실 신광용입니다. 8/11 세미나 내용 요약입니다.

 

효율적인 학습을 위해 학습 데이터를 랜덤하게 선택하는 대신 데이터를 선별해서 학습하는 방법이 존재하는데, 보통 데이터를 선택할 때 training loss 또는 gradient 값이 큰 데이터 위주로 선택했습니다. 이 논문은 기존 방법들은 학습해서는 안되는 noisy, 혹은 학습 중요도가 낮은 outlier 데이터 위주로 선택하는 단점이 있다는 점을 보여주고, 이 단점들을 개선한 방법을 제안합니다.

 

이 논문의 학습 데이터 선택 기준은 training loss뿐만 아니라, 따로 분리한 holdout 데이터셋에 학습한 모델에서의 loss 값 또한 참고합니다. 후자 lossirreducible holdout loss(IL loss)이라 부르고, IL loss값이 크면 noisy 혹은 outlier 데이터로 판단해서 해당 데이터는 선택순위를 낮게 배정합니다. QMNIST, CIFAR-10/100, CINIC-10, CoLA, SST-2 그리고 Clothing-1M 데이터셋에서 실험을 진행했고, 데이터 개수가 많지만 noise가 많은 Clothing-1M 데이터셋에 가장 효과적이었다고 합니다.

 

감사합니다.

안녕하세요 서울대학교 VMO 연구실 김민재입니다. 7/28 세미나 내용 간략히 공유해 드립니다.

 

연합 학습은 각 클라이언트가 가지고 있는 데이터에 직접 접근하지 않으면서도, 여러 클라이언트가 서로 협력하여 글로벌 모델을 학습할 수 있게 하지만 각 클라이언트가 가지고 있는 데이터가 heterogeneous 할 경우 그 성능이 떨어지는 문제를 가지고 있습니다. 이러한 차이는 더 나아가 다음과 같은 딜레마로 이어집니다. "학습된 모델의 일반 성능(Generic) 혹은 개인화된 성능(Personalized)을 우선시해야 하는가?"

 

겉보기에 상충되는 이 두 가지 목표는 FL paper 들이 둘 중 하나에 초점을 맞추게 하였지만, 본 논문에서는 두 가지 목표에 동시에 접근할 수 있음을 보여줍니다. 구체적으로, 모델의 두 가지 목표를 (generic & personalize) 두 가지의 predictor 를 통해 명시적으로 분리하는 새로운 연합 학습 프레임워크를 제안합니다.

 

한편으로, class-imbalanced 를 완화하기 위한 손실함수를 도입하여 데이터의 분포가 hereogeneous 하더라도 클라이언트가 일관된 목표를 가지고 general purpose predictor를 훈련할 수 있도록 합니다. 반면에 개인화된 predictor 는 각 클라이언트의 empirical risk을 최소화하도록 학습합니다. FED-ROD(Federated Robust Decoupling)라고 하는 두 가지의 손실, 두 가지의 predictor 를 가진 프레임워크를 통해 학습된 모델은 generic & personalized 측면에서 모두 우수한 성능을 달성할 수 있었습니다.

 

감사합니다.

Fairness and Bias In AI

카테고리 없음 2022. 8. 26. 17:53 Posted by syyoon

안녕하세요. 서울대학교 석박통합연구생 유상윤 입니다. 8월 25일 세미나 관련 내용 요약입니다.

 

Fairness는 모호한 개념이지만 Fairness를 achieve하는 방법은 크게 두가지로 나눌 수 있다.

1. Fairness through Blindness.

2. Fairness through Awareness.

 

Fairness through Blindness가 필요한 상황은 단순히 Subpopulation Shift로 인해서 Bias가 발생한 경우로, Sensitive Attribute을 의도적으로 무시하는 것이 Fairness에 도움이 되는 경우이다. Subpopulation Shift 문제란 group별로 sample의 갯수가 다르다거나, entropy가 달라 단순히 전체 loss를 minimization하는 것이 특정 group에 불리하게 작용하는 경우를 나타낸다. 이때 만약에 Bias를 지우는 방향과 model의 성능에 도움이 되는 feature들이 orthogonal하다면 bias를 지우면서 성능 저하 또한 방지할 수 있다. Dataset의 예시로는 색깔과 digit이 통계적으로 연관되어있는 Colored MNIST 같은 것을 볼 수 있다. 이를 위한 방법론의 예시로는 Adversarial Learning이나 Disentangle 과 같이 bias에 관여되는 feature들을 학습하는 것을 최대한 방지하는 방식으로 fairness를 추구한다.

 

Fairness through Awareness가 필요한 상황은 이보다 더 본질적인 문제로, target과 sensitive attribute이 논리적으로 correlate되어 있는 경우이다. 예를 들어 국가에 따라서 우수한 학생들이 지원하는 학과가 다른 상황을 가정해보자. 이때 국가라는 sensitive attribute을 blind하게 무시해버린다면 우수한 학생들이 어디에 지원할지 예측할 수 없을 것이다. 이 경우에는 오히려 국가라는 sensitive attribute을 prediction에 고려를 해야한다. 이를 위한 방법론의 예시로는 Domain Discriminative/Independent Training을 들 수 있다.

 

하지만 많은 경우 두가지 문제가 어느정도 모두 존재해 Unfair한 상황이 만들어 질 수 있다. 이를 가장 보편적, 그리고 해치지 않고 해결하는 방법은 Adaptive Sampling을 하는 것이다. 모든 feature에 aware하게 하면서 특정 group에 불리하게 risk가 minimize되는 것을 방지할 수 있다. 하지만 Modern NN model들의 경우 대부분 high capacity model로 train dataset에 거의 완벽하게 fit하게 된다. 이때 minority group에서의 risk를 다 minimize하였다고 하더라도 generalize 측면에서 더 불리하게 작용한 것이므로 여전히 unfair한 모델이 생성되게 된다. 이를 위해서 G-SMOTE라는 방법이 제시되었는데, 이는 GAN을 통해서 minority group에서도 충분히 general한 decision boundary를 학습할 수 있도록 해준다. 또한 이 논문에서는 GAN 뿐만 아니라 모든 종류의 augmentation이 도움이 된다고 주장하고 있고, 이는 최대한 decision boundary를 모든 group에 대해서 generalize하는 것이 중요함을 나타낸다.

 

감사합니다.

 

Source

Fairness through Awareness - ITCS’ 12

Towards Fairness in Visual Recognition: Effective Strategies for Bias Mitigation - CVPR’ 20

Learning Debiased Representation via Disentangled Feature Augmentation - NeurIPS’ 21

Does enforcing fairness mitigate biases caused by subpopulation shift? - NeurIPS’ 21

Leveling Down in Computer Vision: Pareto Inefficiencies in Fair Deep Classifiers - CVPR’ 22

안녕하세요, KDST 팀원 김동진입니다. 괜찮은 논문을 읽게 되어 간략한 내용 공유해 드립니다.

 

 해당 논문은 Transfer learning에서 fine-tuning이 언제 그리고 왜 linear proving보다 out-of-distribution에 대한 높은 error를 보이는지 이론 및 실험으로 잘 설명한 논문입니다.

 

 논문에서는 fine-tuning 시 feature distortion이 발생하게 되고 이는 큰 out-of-distribution error를 가져와 linear probing에 비해 낮은 성능을 보이게 된다고 주장하였습니다. (feature distortion: feature가 특정 방향으로만 update 되는 현상. 여기서는 ID의 subspace 방향으로만 학습되는 것을 의미합니다.) 또한, fine-tuning에서 발생하는 out-of-distribution error의 lower bound를 간단한 모델에서 수식화하여 1. 초기 head의 initialization이 좋을수록, 2. pretrained model이 좋지 않을수록 낮은 error를 가질 수 있다고 주장하였습니다.

 

흥미로운 논문이라 읽어보시길 추천해 드립니다.

감사합니다.