지난 7월 1일 베트남 팜민찐 총리의 방한 공식 행사로 열린 한국의 반도체와 인공지능 분야 전문가 15명과의 간담회에 김수현 박사가 인공지능 전문가로서 참석하였습니다. 자세한 내용은 아래 링크에서 확인하실 수 있습니다.
(로그인 문제로 늦게 포스팅하였습니다)

http://www.goodmorningvietnam.co.kr/news/article.html?no=73633

 

[굿모닝베트남미디어] [한국방문6] 팜민찐 총리, 한국의 반도체 및 AI 전문가와 과학자와 오찬

한국 15명의 한국 전문가와 과학자들은 팜민찐 총리와의 토론에서 베트남이 반도체와 인공지능 분야를 발전시킬 수 있도록 돕겠다고 약속했다. 7월 1일 팜민찐 총리는 공식 방한의 틀 안에서 반

www.goodmorningvietnam.co.kr

 

안녕하세요, KDST팀 이원준입니다.

금일 진행한 세미나에 대해서 공유드리도록 하겠습니다. 

 

CVPR 2024에서 Oral + Best Student Paper runner-up을 받은 논문입니다.

 

논문에서 지적하는 포인트는 아래와 같습니다.

  • Transformer와 CNN의 근본적으로 어떤 차이로 인해 달라지는가?
  • 흔히 Transformer의 장점 중 하나인 self-attention이 그러한 원인이라면, attention이 없음에도 더 좋은 성능을 보이는 ConvNeXt 모델은 무엇인가?
  • attention이 원인이 아니라면, 내부 아키텍쳐가 원인인가?
  • 그렇다면, 내부 아키텍쳐의 어떤 부분이 원인인가?

본 논문에서는 이러한 차이를 밝히기 위해, 아래와 같은 Method를 제안합니다.

  • Sub-explanation counting
  • Cross-Testing

Sub-explanation counting

  • "One explanation is not enough: structured attention graphs for image classification.", NeurIPS 2021에서 소개되었던 Minimally Sufficient Explanations (MSEs)를 이용합니다. 
  • MSE : 네트워크가 높은 신뢰도로 예측을 수행하는 데 필요한 최소한의 입력 패치 집합을 의미
  • 이 논문에서는 최소한의 입력 패치 집합인 MSE에서 더 나아가, 네트워크마다 필요로하는 패치들이 어떤 차이가 존재하는가를 알아보기위해 MSE보다 더 하위 집합의 패치들까지 조사하는 방식을 제안합니다.

여기에서 크게 모델들은 두 가지의 특징을 가집니다.

  1. Compositional behavior : Compositionality가 높은 모델은 이미지의 여러 부분을 종합적으로 고려하여 의사결정을 내릴 수 있습니다
  2. Disjuctive behavior : Disjuctive한 특징이 강한 모델은 이미지의 적은 수의 특징만으로도 확신을 갖고 의사결정을 내릴 수 있습니다

결과적으로, ConvNeXt와 non-distillated Transformer가 Compositional함을 나타내고, 반대로 CNNs과 Distilled Transformer(CNN으로 부터 distillation)는 Disjuctive한 특징이 강하게 나타났습니다. 

 

자세한 원인은 실험 파트에서 설명드리도록 하겠습니다.

 

Cross Testing

  • 한 네트워크를 기반으로 이미지에 대한 attribution map을 생성한 다음 마스크된 영역을 두 번째 네트워크에 입력하는 방식 
  • 이를 통해서 첫 번째 네트워크에 크게 기여하는 영역이 두 번째 네트워크와 관련이 있는지 여부를 이해할 수 있다. 
  • 두 모델이 유사한 시각적 특징에 의존하는 경우 교차 테스트에서 높은 점수를 받아야 합니다. 반면에 한 모델이 다른 모델에 중요한 것으로 간주되는 시각적 특징에 반응하지 않으면 다른 부분에 의존하고 있음을 의미합니다.

 

Experiments

본 논문에서 사용되는 메트릭은 Insertion metric입니다.

  • Insertion Metric : attribution map에서 중요한 픽셀이나 특징을 기본 이미지에 순차적으로 삽입하면서 모델의 예측 신뢰도를 평가하는 방법입니다. 이때 삽입된 픽셀이나 특징은 원본 이미지에서 가져옵니다. 기본적으로 흐려진 이미지에서 샘플링됩니다.
  • Insertion Metric에서 점수가 높다는 것은 흐려진 이미지에 중요한 영역이 기본 이미지에 들어갔다는 뜻

실험 파트를 통해 ConvNeXt 모델과 Trasnformer 모델이 다른 CNN들과 Distillated Transformer에 비해 높은 subexplanation의 수를 보입니다. 즉, 높은 subexplanation이라는 뜻은 네트워크가 여러 서로 다른 패치 집합을 통해 자신 있는 분류를 형성할 수 있음을 의미합니다(Compositionality가 강함).

 

예를 들어, 모델은 고양이라는 클래스에서 눈, 코, 입 중 3가지 모두를 봐야 가장 정확하게 예측할 수 있다라는 것입니다. 

 

반대로, Disjuctive한 모델은 눈, 코, 입 중 눈에 대한 패치만 있어도 높은 confidence로 예측을 수행할 수 있습니다. Disjuctive하다는 것은 눈에 대한 패치가 없으면 confidence가 많이 떨어지기 때문에 눈에 대한 패치가 포함되어 있어야만 제대로된 예측을 수행할 수 있습니다. 따라서 subexplanations의 수가 적습니다. 

 

Compositionality가 강한 모델의 경우에는, 이미지의 여러 부분을 고려해서 예측을 수행하기 때문에, 다양한 조합의 패치들의 하위 집합이 만들어질 수 있으므로 subexplanation의 수가 많음을 나타냅니다. 

 

 

위 사진을 통해 Transformer 모델들과 CNN 기반 모델들의 하위 집합체의 수가 많이 다르다는 것을 확인 할 수 있습니다. 

 

그렇다면, 이러한 원인이 무엇인가 논문에서 분석한 결과

모델의 Normalization의 방법에 따라 이러한 점이 극명하게 갈린다는 것입니다. 

ConvNeXt-T-3 : 모든 ConvNeXt 블럭에서 3x3 kernel을 사용한 모델 

ConvNeXt-T-3 - GN : 모든 ConvNeXt 블럭에서 3x3 kernel을 사용한 모델  + Layer Norm을 Group Norm으로 변경

ConvNeXt-T-3 - BN : 모든 ConvNeXt 블럭에서 3x3 kernel을 사용한 모델 + Layer Norm을 Batch Norm으로 변경

 

마찬가지로

 

Swin-T-4 : swin의 1,2 스테이지에서만 4x4 window size로 변경 

Swin-T-4 - GN : swin의 1,2 스테이지에서만 4x4 window size로 변경 + Layer Norm을 Group Norm으로 변경

Swin-T-4 - BN: swin의 1,2 스테이지에서만 4x4 window size로 변경 +  Layer Norm을 Batch Norm으로 변경

 

실험 결과를 보면, LN을 BN으로 대체했을때 Sub-explanation의 수가 확실하게 떨어짐을 관찰할 수 있습니다. 

즉, Batch Normalization이 모델을 덜 compositional하게 만든다는 것입니다. 

 

 

Sub-explanation의 실험 이후로 Cross Testing에 대한 실험도 진행하였습니다.

 

위 실험 결과에서 가장 두드러지게 보이는 점은 세 번째 열의 Spoonbill 이미지에서 VGG에 의해 생성된 경우, 대부분의 다른 네트워크도 자신 있는 분류를 얻을 수 있었습니다. 그러나 VGG는 다른 네트워크가 생성한 가려진 이미지에서 매우 낮은 성능을 보였으며, 이는 특정 특징에 과도하게 의존하여 이러한 마스크 아래에서 그 특징이 존재하지 않을 수 있음을 보여줍니다. (Bold 글씨체가 생성된 모델을 뜻합니다.) 

 

간단하게 논문 소개를 드렸는데, 더욱 자세한 내용은 논문을 참고하시면, 여러가지 결과와 분석을 확인하실 수 있습니다.

 

읽어주셔서 감사합니다.

 

TEA: Test-time Energy Adaptation

카테고리 없음 2024. 7. 18. 16:41 Posted by 랏츠베리

안녕하세요. KDST 박민철입니다.

오랜만에 인사드립니다. 그동안 연구하며 공부한 개념을 바탕으로 제가 몰입했던 다양한 딥러닝 연구 주제를 공유하고 소통하는 시간을 갖고자 합니다.

 

이번 공유 내용에서는, 딥러닝 모델을 배포하고 예측 모델로 활용할 때, 모델이 잘 학습했던 source 데이터와 target 데이터의 분포간 차이로 인해 예측의 어려움을 겪는 상황에서 target 데이터만으로 적응 (adaptation)되도록 지도하는 방법론 중 하나인 Test-Time Adaptation (TTA)에 관한 기술을 소개하겠습니다.

 

TTA는 모델이 배포된 시점, 즉 테스트 시점에 모델의 일부 파라미터를 fine-tuning하는 adaptation 기술입니다.

예를 들면, 테스트 데이터 즉 앞서 언급한 target 데이터는 실생활에서 예상할 수 있는 날씨 변화 (눈, 비, 황사, 등) 등이 포함되어 학습 시 관측 했던 데이터와 covariate shift가 존재할 수 있습니다. 이 때, 학습 데이터를 Maximum A Posteriori을 통해 최적화한 딥러닝 모델의 likelihood만으로 학습 데이터 분포로부터 멀리 shift된 데이터를 잘 추론할 수 있을 것이라 기대하기 어렵기 때문에, 기존의 likelihood는 잘 유지하면서, shifted 데이터에 대한 추가적인 정보를 모델의 파라미터에 반영하는 기술을 TTA라고 이해할 수 있습니다.

 

소개할 "TEA: Test-time Energy Adaptation, CVPR, 2024"는 테스트 시점에 covariate shift가 발생한 데이터 (ground truth를 알 수 없는 unlabeled target 데이터)를 바탕으로 Energy-Based Modeling (EBM)의 관점을 적용하여 배포된 모델의 일부 파라미터를 fine-tuning하는 방법을 제안합니다.

 

본 논문은 energy 분포 Boltzmann distribution을 데이터 x에 대한 분포 p(x)로 도입하고자 합니다.

이를 위해, JEM ("Your classifier is secretely an energy based model")에서 언급한 바와 같이 이미 학습된 discriminative 모델의 class별 logit을 사용하여, class에 대한 marginal을 바탕으로 EBM 기반의 x에 대한 분포를 나타냅니다.

EBM으로 표현하기 위한 energy (a.k.a. free energy)는 아래와 같이 정리되는데,

이를 통해, 우리는 p(x)를 모델의 free energy를 기반으로 EBM에 관한 분포로 아래와 같이 정리할 수 있고,

우리는 test 데이터라고 기입되어 있는 테스트 시점의 target 데이터를 배포된 모델에 대한 energy 기반의 Maximum Likelihood (ML) 문제로 생각하여 in-distribution 데이터로 유도할 수 있습니다. 이 과정에서, 분모의 evidence가 intractable하기 때문에 우회할 방법이 필요합니다.

먼저, ML에 대한 gradient를 고민해보면 Log-likelihood로 표현할 때, 다음과 같이 정리됩니다.

 

따라서, ML을 위한 gradient는 현재 모델이 in-distribution 데이터로 간주하는 일부 표본이 필요한데, 본 논문의 저자들은 Hinton 교수가 RBM 최적화에서 사용한 Contrastive Divergence를 목적함수로 도입하며, 기대값 추정의 부담을 덜게됩니다.

따라서, 저자들은 ML 문제를 아래와 같이 min-max 문제로 정의하고, target 데이터에 대한 in-distribution의 레퍼런스 데이터를 얻기 위해 Stochastic Gradient Langevin Dynamics (SGLD) 기반의 샘플링을 활용합니다.

다음은 TEA기반의 TTA 알고리즘이며, 저자들은 학습의 효율성을 위해 normalization layer의 학습 파라미터만 업데이트합니다.

 

정리하면, 저자들은 배포된 모델을 EBM 기반으로 표현하여, 데이터에 대해 free energy를 부여함으로써, energy 크기에 따라 배포된 모델의 in-distribution 데이터와 out-of-distribution 데이터를 구분하고자 노력하였습니다. 테스트 시점에 covariate shift가 동반된 target 데이터의 energy를 in-distribution으로 추정할 수 있는 레퍼런스 데이터를 샘플링하여 Contrastive Divergence 기반으로 최적화함으로써, target 데이터를 EBM 관점에서 in-distribution로 포함시키고자 노력하였습니다.

 

 

본 논문은 Covariate shift에 대하여, TTA 방법들 중 normalization 방법론, pseudo label을 사용하는 방법론, entropy minimization의 방법론과 비교하였으며, in-depth 스터디로 1. energy 감소와 generalizability 개선 2. distribution에 대한 perception 그리고 generation 능력 3. calibration 개선에 대해 살펴보았습니다.

Experimental results

 

1. Correlation between energy reduction and generalizability enhancement

 

2. The distribution perception and generation capabilities

 

3. The distribution perception and generation capabilities

 

추가적으로 궁금한 부분은 논문을 참조 부탁드리며, 질문을 댓글로 남겨주시면 함께 고민할 좋은 기회가 될 것으로 생각합니다.

 

감사합니다.

안녕하세요. KDST팀 김현수 입니다.

 

제가 이번에 소개드릴 논문은 최근 3D Reconstruction, 3D Rendering 분야에서 NeRF를 제치고, 메인 아키텍쳐로 자리잡은 3D Gaussian Splatting 입니다.

arxiv : https://arxiv.org/abs/2308.04079

github : https://github.com/graphdeco-inria/gaussian-splatting

 

기존에 3D reconstruction 분야에서는 NeRF, Mip-NeRF, Mip-NeRF 360 등 NeRF 기반의 방법론들이 많이 연구되어 왔습니다. 그러나 NeRF의 가장 큰 단점은 시간이 오래 걸린다는 것이고, 이는 real-time rendering 등을 수행하기에 적합하지 않습니다.

InstructNGP 등은 inference 시간이 별로 안 걸리지만, Mip-NeRF 등에 비해서 고해상도의 reconstruction을 할 수 없다는 단점이 있습니다.

 

본 논문에서는 3D Gaussian을 활용해 high quality real-time rendering을 가능하게 하는 방법론을 제안하고 있습니다.

우선 3D gaussian이란 무엇일까요?

 

아래 그림은 고등학교때 배운 정규분포(1D Gaussian)와 이를 2차원으로 표현한 2D Gaussian의 형태입니다.

1D Gaussians(좌) vs 2D Gaussians(우)

3D Gaussian도 이와 유사하게, 한 차원만 추가해주면 됩니다. 이는 구 형태로 생겼는데, 우측 그림의 3D Gaussian Visualization을 자세히 보면, 숲이 여러개의 초록색 구 형태가 합쳐져서 구성되어 있음을 알 수 있습니다.

3D Gaussian(좌) vs 3D Gaussian in 3DGS

 

위에서 설명했듯, 본 논문에서는 이러한 3D Gaussian 즉, 구 형태를 최적화하여 3D scene을 표현할 수 있도록 학습합니다.

 

아래 그림은 3D Gaussian이 학습되는 flow입니다.

 

입력으로 들어 오는 것은 한 object를 여러 각도에서 찍은 image들 입니다. 이를 SfM 알고리즘을 이용하여 SfM points들을 찾아내어 Gaussian들의 initialization parmeter로 활용합니다.

 

SfM 알고리즘이란 Photo Tourism: Exploring Photo Collections in 3D 논문에서 제안한 알고리즘으로, 하나의 대상을 촬영한 여러장의 입력 이미지로부터, 이 대상의 representation을 잘 나타낼 수 있는 point cloud들을 찾아내는 알고리즘입니다.

Gaussian Splatting에서는 이렇게 찾은 point들을 Gaussian의 초깃값으로 사용합니다.

조금 더 구체적으로는 이를 Gaussian의 평균값(M)으로 초기화하는데, 이 외에도 S(covariance), C(color), A(opacity) 등을 초기화해줍니다.

이렇게 Gaussian을 초기화해줬으면, input으로 받은 각 이미지들에서의 각도와 함께 이를 projection 시켜주고, 이를 미분가능한 Tile Rasterizer를 활용해 loss를 계산할 수 있는 이미지 I 형태로 만들어줍니다.

알고리즘으로 보면 아래와 같습니다.

이렇게 구한 이미지 I와 우리가 원래 알고있던 ground truth I hat을 이용해 loss를 계산해줍니다. 이때, loss function으로는 L1 loss와 SSIM loss를 함께 사용합니다.

loss를 계산한 뒤 rasterizer가 미분 가능하기 때문에 역전파를 통해 gaussian들의 각 파라미터(M,S,C,A)를 업데이트 해줍니다.

이때 Adaptive Density Control이란 알고리즘이 작용하는데, Gaussian의 크기가 너무 크거나 작으면 이를 복제 / 분할 하여 표현하고자 하는 representation을 잘 담을 수 있게 만들어주는 것입니다.

Gaussian의 공분산이 너무 크면 이를  Split해주고, 너무 작으면 이를 Clone하여줍니다.

 

전체적인 프로세스를 알고리즘과 함께 보면 아래 그림과 같습니다.

 

실험 결과는 정말 놀라운데, 이전에 가장 속도가 빨랐던 InstructNGP는 물론, SOTA 모델이였던 Mip-NeRF 360 보다도 훨씬 좋은 3D reconstruction 성능을 보여주고 있습니다. 특히 디테일한 부분도 3DGS는 굉장히 잘 잡는 것을 볼 수 있습니다.

 

정량 지표 역시 다른 기존의 모델들 보다 훨씬 좋음을 보여주고 있습니다.

 

더 많은 실험 결과 및 real time rendering 결과(video)는 공식 프로젝트 사이트 혹은 논문을 참고하시기 바랍니다.

읽어주셔서 감사합니다.

안녕하세요. KDST팀 김유진입니다. 6월 14일에 진행했던 Image Editing에 대한 세미나 내용을 간략하게 요약해보도록 하겠습니다. 이번에 소개해 드릴 논문은 Text-to-Image model 기반의 Image editing 연구로 유명한 "Prompt-to-prompt image editing with cross-attention control", "Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation" 입니다.

Diffusion model기반의 Image editing을 수행하기 위한 방법론은 크게 3가지로 나눌 수 있습니다. 

  1. Training-based: 모든 아키텍처를 training하여 target data distribution에 대해서 stable하게 학습할 수 있는 방법
  2. Testing-Time Finetuning-based: pre-trained diffusion model을 target data로 finetuning 하는 방법 또는 특정 identifier token의 embedding만을  optimize하는 방법 
  3. Training and Finetuning Free-based: Source이미지나 target 이미지가 필요 없으며, low-cost로 image editing을 수행하는 방법

Diffusion based Image editing approaches

그 중에서도 오늘 소개해드릴 방법론은 3. Training and Finetuing Free-based Image editing 에 해당하는 연구이며, 그 중에서도 Text-to-Image diffusion model 기반의 image editing으로 유명한 P2P, PnP를 다룹니다. 

(ICLR-2023, notable top-25%) Prompt-to-prompt image editing with cross-attention control


본 논문에서는 기존의 Text-to-Image model (DALLE, Imagen etc) 들은 일반적으로 source 이미지의 semantic information을 유지하며 세밀한 부분을 control하는것에 큰 어려움이 있음을 motivation으로 주장합니다. 

또한 기존의 Image editing 방법론들은 masking 기법으로 수정하길 원하는 range를 heurisitic하게 정하여 원하는 부분만을 control 하는데, 이러한 방법론은 source image에 따라서 hand-craft 방식으로 mask를 지정해줘야하는 limitation이 존재한다고 주장합니다. 
본 논문에서는 번거로운 기법 없이, Prompt상에서의 textual editing 만으로도 원하는 부분만을 수정할 수 있으며, 이는 Diffusion process에서 오직 cross-attention map을 변경해주는 연산만을 통해서 구현할 수 있음을 주장하고 있습니다. 

Prompt-to-Prompt editing capabilities

P2P 논문에서는 위 그림과 같이 3가지의 경우에 대해서 image editing을 수행할 수 있다고 합니다. 

 

1. Word swap: Source prompt의 특정 단어를 원하는 단어로 교체하는 경우
(ex: $P$=“a cat riding a bicycle” to $P^∗$=“a cat riding a car”)

 

Word swap 기법은 Gaussian distribution으로부터 random initalize된 동일한 image latent로부터 각 각 source prompt, target prompt로 이미지를 생성한 후, source prompt로부터 생성한 이미지의 cross-attention map을 target prompt로 생성한 이미지의 cross-attention map에 주입 (injection) 하는 방법입니다. 예를 들어, "A cat riding a bicycle" 이라는 source prompt에서 bicycle을 car로 editing을 수행하고 싶다면, "bicycle" 이라는 text에 해당하는 cross-attention map을 "car"에 해당하는 cross-attention map 으로 변경합니다. cross-attention map을 injection 하는 시점은, Diffusion의 denoising 스텝에서 특정 time step이 $tau$ 이하일 때에만 수행합니다. 

Word swap operation
Word swap operation visualization

특정 $tau$ 를 점차 T시점에서 에서 0 시점으로 옮길 때 editing 되는 이미지의 결과는 아래와 같습니다. 

Attention injection via a varied number of diffusion steps in a word swap operation

 

2. Prompt Refinement: Source prompt에 원하는 스타일의 prompt가 추가되는 경우
(ex: $P$=“a castle” to $P^∗$=“children drawing of a castle”)

 

Source prompt에 원래 존재했던 토큰들에 대한 cross-attention map은 유지한 채로, target prompt에서 새롭게 추가된 text에 대한 cross-attention map 만을 새로 주입하는 방법론입니다. Prompt Refinement를 수행하면, source image의 semantic information은 유지된 채로, 추가된 target prompt의 스타일만이 입혀지게 되는 효과가 나타납니다. 

Prompt Refinement operation
Prompt Refinement operation visualization
Image editing by prompt refinement

 

3. Attention Re-weighting: Source prompt의 특정 단어 영향력을 강화/약화하는 경우

(ex: $P$="The boulevards are crowed today")

Source prompt의 cross attention map에서 영향력을 바꾸고 싶은 text에 해당하는 cross attention map에 곱해지는 scale을 조정하며 image editing을 수행합니다. 이때, scale parameter c는 $c\in[-2,2]$ 제약조건을 따릅니다. 

Attention Re-weighting operation
Attention Re-weighting operation visualization
Text-based editing with fader control

이처럼 prompt-to-prompt 방법론은 모델 아키텍처를 따로 training이나 fine-tuning 시키지 않고도 단순히 text editing과 그에 따른 Cross-attention map injection 연산을 통해, source image의 semantic information을 유지한 채, 원하는 스타일로 editing할 수 있음을 보입니다. 흥미로운 다른 결과들은 논문을 참조해주세요.