안녕하세요. KDST팀 김유진입니다. 10월 21일에 진행했던 MLP-Mixer에 대한 세미나 내용을 간략하게 요약해보도록 하겠습니다. 

 

 

현재까지 Computer vision task를 수행하기위해 다양한 아키텍쳐가 제안되어 왔습니다. 그중에서도 MLP-Mixer는 기존의 CNN 기반의 아키텍쳐와 달리 MLP layer만을 활용하여 아키텍쳐를 구성한다는 특징이 있습니다. 

Computer Vision 분야를 위한 기존의 아키텍쳐 종류

MLP-Mixer는 기존 CNN기반의 아키텍쳐와 달리 레이어의 노드간 완전 연결을 통해, locality 현상을 극복하고 global feature를 학습할 수 있습니다. 또한 Vision Transformer가 추구하는 방향 (inductive bias문제 해결, self-attention을 활용하여 global feature를 학습) 과 유사한 방향을 추구하고 있습니다. 이러한 MLP-Mixer는 비록 ImageNet clasification 성능에서 SOTA를 달성하지는 못하지만 기존 CNN, ViT와 성능이 거의 유사하며, 기존의 아키텍쳐 대안으로 활용할수 있습니다.

 

MLP-Mixer 구조

MLP-mixer의 큰 특징으로는 1) Token Mixing Layer와 2) Channel Mixing Layer를 가진다는 점입니다. 

먼저 Token Mixing Layer는 입력으로 들어온 patch들에 대해서 "공간적"으로 정보를 섞어주는 역할을 수행합니다. 모든 patch를 Per-patch Fully-connected layer에 포워딩 시켜 얻게된 CxS 벡터를 transpose하여 SxC로 만들어주고, 메트릭스의 각 행을 MLP Layer의 입력으로 넣어주는 과정을 이야기합니다. 이때, 메트릭스의 한 행에 모든 패치에 대한 정보가 포함되어있으므로, patch들 사이의 공간적 정보를 학습할 수 있습니다. 두번째로 Channel Mixing Layer에서는 다시 SxC 매트릭스를 CxS형태로 transpose하여 한개의 패치 내에서 채널 정보를 mixing합니다. 이때, 하나의 패치 내의 locality 정보를 학습할 수 있습니다. 

 

MLP-Mixer 아키텍쳐 일반화 식
MLP-Mixer forwarding phase

마지막으로 MLP-Mixer에 데이터를 forwarding 하는 과정을 식으로 나타내면 위와 같습니다. 위의 U,Y 는 아래 MLP-Mixer forwarding phase 그림을 참고하시면, 도출해 낼 수 있습니다.

 

각 데이터셋에 대한 다양한 아키텍쳐의 성능 비교표

다양한 데이터셋에 대해서 Image classification 성능을 비교한 표를 보면, MLP-Mixer가 top-1 accuracy SOTA 성능을 달성하고 있지는 않지만 ViT나 CNN 아키텍쳐 대비 comparable한 성능을 달성한다는 것을 알 수 있습니다. 하지만 SOTA를 달성하고 있는 아키텍쳐 대비, Throughput은 높으며 TPU core per day는 낮은 것을 알수있습니다. 이를 통해 MLP-Mixer는 보다 효율적으로 SOTA성능에 가깝게 달성가능하다는 것을 알 수 있습니다. Top-1 accuracy와 computational resource 간의 trade-off가 발생할 수 있으므로, 사용자는 자신의 개발환경에 맞는 아키텍쳐를 선택해야 할 필요가 있습니다. 해당 논문의 저자들은 MLP-Mixer가 practical하게 CNN과 ViT를 대체할 수 있을것이라 기대하고있습니다. 

 

자세한 내용은 MLP-Mixer 논문을 참고해주세요. 감사합니다:)

안녕하세요 서울대학교 VMO 연구실 김민재입니다. 11/18 세미나 내용 간략히 공유해 드립니다.

 

헤즈업 노리밋 텍사스 홀덤(HUNL)게임은 정보가 불완전한 전형적인 게임입니다. DeepStack 및 Libratus와 같은 대표적인 선행 연구들은 HUNL을 해결하기 위해 CFR 및 그 변형에 크게 의존하지만 CFR 에는 많은 연산 오버헤드가 존재합니다. 본 논문은 엔드 투 엔드 셀프 플레이 강화 학습 프레임워크로 학습할 수 있는 고성능 경량 HUNL AI인 AlphaHoldem을 제시합니다.

 

제안된 프레임워크는 학습된 모델을 다른 과거 버전들과 경쟁하여 end-to-end로 직접 학습하기 위한 CNN 아키텍처를 채택합니다. 주요 contribution에는 카드 및 베팅 정보의 새로운 상태 표현, 멀티태스킹 셀프 플레이 training loss function, 최종 모델을 생성하기 위한 새로운 모델 평가 및 선택 metric이 포함됩니다. AlphaHoldem은 단일 GPU만 사용하여 각 의사 결정에 2.9밀리초만 소요되며 DeepStack보다 1,000배 이상 빠릅니다. 

 

감사합니다.

안녕하세요 KDST 팀의 강민수입니다.

 

오늘 소개해드릴 논문은 Facebook AI 팀에서 발표한 Simsiam architecture를 활용하여 unsupervised learning 방식 중 하나인 contrastive learning 을 하는 방식입니다.

 

전통적인 contrastive learning method들은 한 이미지를 대상으로 strong augmentation을 취해서 유사한 이미지를 만듭니다. 이후, augmentation된 이미지들은 서로 같게, 서로 다른 instance의 이미지는 embedding vector가 다르게 학습함으로서 feature representation learning을 하게 됩니다.

 

이런 상황에서 model을 shared해서 모두 같은 이미지를 흘리는 방식도 존재하지만 (SimCLR), BYOL의 논문은 EMA방식으로 encoder로부터 update되는 momentum encoder를 두고 predictor라는 별도의 network를 추가하여 학습하는 방식도 존재하였습니다.

SimSiam은 stopgradient를 활용하여 encoder하나와 predictor network를 활용하여 학습하는 방식을 취했습니다. 이를 통해 contrastive learning의 문제인 representation collapsing을 막을 수 있음을 보였습니다.

 

또한, EMA대신에 MLP인 predictor network를 활용하고 stopgradient로 update함으로써 학습이 더 안정적으로 잘되고, Batch size를 줄여도 학습이 가능하다고 말하고 있습니다. (기존 contrastive learning은 큰 batch size가 필수이고 LARS optimizer를 써야했고, SGD를 사용불가능했다고 말합니다.)

 

자세한 내용은 본문을 참조해주시기 바랍니다.

안녕하세요, KDST팀 김동진입니다.

 

오늘 소개해드릴 논문은 distribution shift에서의 generalization 발생을 분석 가능하게 하는 framework을 제안하고, 이 framework를 이용하여 다양한 distribution shift의 기반이 되는 3가지 distribution shift를 정의하고 추가적인 2가지 조건(label noise, train dataset 사이즈)에서 robustness를 가져올 수 있는 다양한 방법론들을 평가 및 비교한 논문입니다.

 

논문에는 진행한 실험 분석의 결과들이 Takeaways에 정리되어있고, distribution shift 문제에 대응해야 할 때 도움이 될 수 있는 팁들 또한 Pratical tips에 정리되어있어 참고하시면 좋을 것 같습니다. 

 

감사합니다.

안녕하세요 고려대학교 KDST 연구실 석사과정 강민수입니다. 2022년 9월 22일 세미나 내용을 간략히 요약해드리겠습니다.

 

Deep neural network는 보통 dataset에 존재하는 spurious correlation에 기반해서 prediction을 하는 경우가 많다고 합니다. 쉽게 말하면 ground truth라고 알고있는 대상을 보지 않고 correlated된 다른 feature를 기반으로 하는 경우가 많다는 것이죠.

이러한 것은 unbiased data distribution환경에서 generalization에 실패하는 경우도 많았기에 이러한 문제를 다뤘던 기존의 approach들이 있었다고 합니다. 흔히 생각해볼 수 있는 것은 pre-defined된 bias attribute를 통해서 하는 경우도 있지만, 이러한 것은 사실 비용도 비싸고 어려울 것이라는 추측은 간단하게 해볼 수 있을 것입니다.

그렇기에 최근 논문에서는 bias attribute를 unsupervised debiasing을 목표로 하는 방식을 취했습니다. 해당 방법에서는 unbiased 뿐만 아니라 biased sample에 대해서 classification ability를 유지하는 방향으로 update하는 것이 굉장히 중요했습니다.

본 논문에서는 explicit한 supervision없이 dataset bias를 하는 것과 bias-guiding sample과 bias-contrary sample 모두에서 좋은 성능을 보여주는데에 집중했다고 합니다.

여기서 bias-guiding sample은 bias가 존재하는 sample로서 새라면 뒤의 배경 하늘 정도가 되겠고, bias-contrary sample에서 object가 새라면 뒤의 배경이 용암일 확률이 적으니 그런 sample이라고 볼 수 있습니다.

본 논문에서 제안하는 BiaSwap은 translation 기반의 augmentation framework로서 각 이미지에서 나타나는 부분들을 다른 이미지로 transfer하여 추론 시키는 방식입니다. Bias가 easy-to-learn attribute로 구성되어있는 점에서 기인하여, bias attribute를 다른 exemplar image에 옮기는 방법이라고 할 수 있습니다. 그러면 bias-guiding sample을 bias-contrary로 옮겨서 debiasing을 한다 라고 생각하시면 좋을 것 같습니다.

 

자세한 내용은 리뷰 글 혹은 원문을 참조해주시기 바랍니다.

 

감사합니다.