안녕하세요 KDST 한용진입니다.

 

이번 논문 세미나에서 소개해드린 논문, "Seeking Consistent Flat Minima for Better Domain Generalization via Refining Loss Landscapes"을 살펴보고자 합니다.

 

논문 제목을 통해 유추할 수 있듯이 loss landscape를 조정해 가며 Domain Generalization을 위해 consistent flat minima를 찾는 방법을 제안하는 논문입니다.

 

Summary

Domain Generalization을 위해서 여러 연구들이 flat minima를 효율적으로 찾는 방법을 제안해오고 있습니다. 그러나 기존 방법들은 서로 다른 도메인 간의 consistency를 고려하지 않는다는 문제점이 존재합니다. 특히나 loss landscape가 도메인에 따라 다르다면 학습 도메인에서는 flat minima였으나 테스트 도메인에서는 sharp minima일 가능성이 존재합니다. 이러한 문제는 결국 일반화 성능을 저해하는 결과를 야기합니다. 본 논문에서는 이를 해결하기 위해 여러 도메인의 loss landscape를 점진적으로 수정하는 Self-Feedback Training (SFT) 방법을 제안합니다.

 

Self-Feedback Training framework

SFT는 feedback phase와 refinement phase 두 단계로 이루어져 있습니다. Feedback phase에서는 도메인 간에 inconsistency를 계산하여 이를 feedback signal를 구하는 단계입니다. Refinement phase에서는 feedback signal을 바탕으로 여러 도메인들의 loss landscape를 비슷하게 만들어주는 작업을 진행합니다. 이 과정을 반복하여 Figure 1 (a)에서 Figure 1. (b)와 같은 결과를 얻는 것을 목표로 합니다.

Feedback phase

Feedback phase는 다음과 같이 진행됩니다. 우선 학습 도메인 데이터셋에서 도메인을 무작위로 선택하여 $D_d$와 $D_{d'}$을 구성합니다. 이때 $D_d$는 학습에 활용되고 $D_{d'}$은 도메인 간 inconsistency를 구하는 데 사용됩니다. 모델의 파라미터 $\theta$를 업데이트한 이후에는 feedback signal을 생성합니다. Feedback signal은 맨 처음 구분하였던 $D_d$와 $D_{d'}$간의 sharpness 차이로 정의됩니다.

landscape refiner $g_{\phi}$는 soft label (SL) $y^{(d)}_i$를 출력으로 생성합니다. Feedback phase에서는 one-hot label을 soft label로 대체하여 모델을 학습시킵니다. (위 수식은 모두 y를 y로 바꾼 것이라 보면 됩니다.)

 

또한 training loss 함수를 landscape refiner $g_{\phi}$의 파라미터에 의존하도록 함으로써 추후에 loss landscape을 변형할 수 있도록 하였습니다. 다만 파라미터 $\phi$는 feedback phase에서는 업데이트되지 않기 때문에 상수로 취급하는 것에 유의해야 합니다.

 

Feedback signal은 두 도메인 간 sharpness 차이로 정의된다고 언급하였습니다. 물론 loss 값을 사용할 수도 있지만 이는 zero-order info.이기 때문에 그보다는 second-order info.를 반영하는 Hessian과 연관된 sharpness를 사용하는 것이 feedback으로써의 역할을 더 잘 수행할 것이므로 sharpness를 사용하였습니다.

 

Refinement phase

Refinement phase는 feedback signal을 바탕으로 landscape refiner $g_{\phi}$를 학습하는 과정입니다. 이 과정에서 label의 correctness을 유지하는 것과 soft label이 domain generalization에 도움을 준다는 사실을 중요하게 생각하였습니다. 이에 따라 일반적인 cross-entropy loss를 사용할 수도 있었지만, 그렇게 되면 one-hot target에 overfitting하게 되고 결국 generalization 능력에 제한이 생기는 문제가 발생할 수 있습니다. 대신 저자들은 각 클래스에서의 soft label의 분포 '거리'를 최소화하는 것에 초점을 맞췄습니다. 이는 KL divergence를 통해 달성할 수 있는데 좀 더 효과적인 학습을 위해 Lagrange function과 KKT condition을 사용해 최적화된 soft label 분포를 학습시켰습니다. 본 논문에서는 이를 Projected Cross Entropy (PCE)라고 소개하며 자세한 내용은 논문의 supplementary를 참고하시기 바랍니다.

결국 refinement phase의 최종 loss는 PCE loss, SAM loss, feedback singal로 구성됨을 알 수 있습니다.

 

전체 알고리즘은 아래와 같습니다.

Experiments

세 개의 클래스와 네 개의 도메인으로 이루어진 데이터셋을 생성하여 실험한 결과입니다. Figure 2에서 첫 번째 행은 SFT를 사용하지 않아 loss landscape가 불규칙적이며 optimal minima또한 미세하게 다른 반면, SFT를 통해 시각화된 도메인의 경우 loss landscape가 일정하며 optimal minima 또한 거의 같은 것을 확인할 수 있습니다.

ResNet50 에 대해서 SAM이 ERM보다 좋으며 SFT가 SOTA 성능을 보여주는 것을 확인할 수 있습니다.

ViT 모델에서의 실험 또한 비슷한 양상을 보이고 있습니다. 신기한 것은 full fine-tuning보다 VPT로 학습한 것이 성능이 더 좋다는 것입니다.

 

SFT는 SAM variant라고 볼 수도 있는데 다른 SAM variant 방법보다도 더 우수한 성능을 보여주는 것을 확인했습니다.

Sharpness value 또한 오히려 SAM보다 더 낮은 것을 확인할 수 있습니다.

Refinement phase에서 hyper param.으로 사용된 $\lambda$에 대한 ablation study입니다. 상위 파트는 ERM과 SAM을 의미합니다. 물론 SFT가 좋은 성능을 보이지만, SFT에서 소개된 방법들을 추가할 때마다 성능이 향상되는 것을 볼 수 있습니다.

 

Conclusion

본 논문에서는 도메인 간에 발생할 수 있는 inconsistency를 sharpness를 이용한 feedback signal과 loss landscape refinement를 통해 Domain Generalization 성능을 향상시키는 방법을 제안하였습니다. 비록 테스트 도메인을 알 수 없는 상황이지만 학습 도메인의 loss landscape를 consistent하게 만드는 것만으로도 일반화 성능을 향상시킬 수 있다는 부분이 개인적으로 흥미로웠던 것 같습니다.

 

잘못 전달한 부분이나 추가적인 질문이 있으시면 댓글 남겨주세요. 감사합니다.

 

본 글에서 다루지 않은 내용이 있으니 더 깊은 이해를 위해 논문 읽기를 권장드립니다.

https://openaccess.thecvf.com/content/CVPR2025/papers/Li_Seeking_Consistent_Flat_Minima_for_Better_Domain_Generalization_via_Refining_CVPR_2025_paper.pdf

안녕하세요 KDST 한용진입니다.

 

이번 세미나에서는 2025년도 ICLR에서 발표된 "Robustness Reprogramming for Representation Learning"이란 논문을 발표하였습니다.

 

논문에 대해 간략하게 먼저 설명을 해보자면, 본 논문에서는 feature의 패턴 매칭 관점에서 신경망 모델의 취약점을 살펴보고 이를 해결하기 위해 비선형 패턴 매칭 방법을 제안합니다. 비선형 패턴 매칭을 통해 유도된 아키텍처로 변환하는 것만으로도 모델의 robustness가 향상됨을 보입니다. Robustness 향상을 위해 고비용의 적대적 학습을 하였던 기존 방법을 벗어나 representation learning 관점으로 재해석하여 추가적인 학습 없이도 robustness를 향상할 수 있음을 보여주는 재밌는 논문입니다.

 

Introduction

모델의 robustness 향상을 위해 일반적으로 적대적 학습 (adversarial training)과 적대적 정화 (adversarial purification)과 같은 방법을 사용합니다. 그러나 이러한 방법론은 시간 복잡도 및 계산 복잡도가 증가하는 단점이 존재합니다. 본 논문에서는 이러한 단점을 가진 방법을 사용하는 것이 아닌, representation learning의 패턴 매칭 관점에서 추가적인 학습 없이 robustness를 향상시킬 수 있는 방법을 제안합니다.

 

Notation

feature dimension $D$, input feature $x=(x_1,...,x_D)^T\in \mathcal{R}^D$, parameter vector $a=(a_1,...,a_D)^T\in \mathcal{R}^D$

 

Nonlinear Robust Pattern Matching

MLP, CNN, Transformer 등의 아키텍처는 다음과 같은 선형 변환을 통해 관심 있는 특정 feature 패턴을 찾기 위한 모델이라고 해석할 수 있습니다: $z=a^Tx=\sum^{D}_{d=1}a_d\cdot x_d$. 특히 어떠한 패턴 $x$가 모델의 파라미터 $a$와 매우 밀접하게 연관되어 있다면, 해당 패턴은 패턴 매칭을 통해 탐지될 수 있습니다. 하지만 이러한 선형 변환은 perturbation에 민감하다는 문제가 있습니다. 이러한 점을 해결하기 위해 Nonlinear Robust Pattern Matching 방법을 제안합니다.

 

우선, Linear Pattern matching (LPM)을 Ordinary Least Squares (OLS) 문제의 closed-form solution으로 표현할 수 있습니다. 하지만 quadratic penalty로 인해 이상치에 매우 민감하므로 OLS 추정을 Least Absolute Deviation (LAD)에 기반한 식으로 변환합니다.

 

LAD 식은 non-smooth 하기 때문에 Lemma 3.1을 통해 LAD의 상한을 구하고 이를 newton method로 근사함으로써 미분 가능한 식을 얻습니다: $Z_{LRPM}^{(k+1)}=D\cdot \frac{\sum_{d=1}^Dw_d^{(k)}a_dx_d}{\sum_{d=1}^D w_d^{(k)}}$

Robust Analysis

이러한 비선형 패턴 매칭 방법은 변화율을 통해서 robustness가 향상될 수 있음을 보일 수 있습니다. LPM의 경우 perturbation $x_0$과 $z_{LPM}/D$에 의해 민감도가 결정이 됩니다. NRPM의 경우 NPM과 유사하게 perturbation $x_0$과 $z_{NRPM}/D$에 의해 민감도가 결정되지만, 분모의 $\sum_{d=1}^Dw_d$만큼 민감도 변화가 줄어들기에 좀 더 robust해진다고 주장합니다.

Reprogramming Paradigm

본 논문에서는 NPM과 NRPM을 $\lambda \cdot LPM + (1-\lambda) \cdot LRPM$으로 혼합하여 사용하는 세 가지 패러다임을 제안합니다.

Paradigm 1: fine-tuning 없이 NRPM을 적용

Paradigm 2: $\lambda$만 학습, 추가적인 fine-tuning 없음

Paradigm 3: $\lambda$와 모델 파라미터 모두 fine-tuning

 

Experiments

NRPM을 적용했을 때 실험 결과는 다음과 같습니다. MNIST, CIFAR10 데이터셋에 대해서 더 높은 robust accuracy를 보였으며 paradigm 3을 통해 모든 파라미터를 fine-tuning 하였을 때 제일 높은 성능을 보여주고 있습니다.

적대적 학습을 함께 적용했을 때에는 더 높은 robustness를 보여주고 있습니다.

 

Conclusion

본 논문에서는 큰 비용을 들이지 않고도 비선형 패턴 매칭을 통해  robustness를 향상시키는 방법을 제안합니다. 다양한 데이터 셋에서 진행한 실험이 이를 뒷받침해주고 있으며, robust 모델을 만들기 위한 연구에 새로운 방향성을 제시하는 연구입니다. 다만 아쉬운 점은 대부분의 실험이 MNIST에서 이루어졌으며 실험에 사용된 모델 또한 작은 모델이었다는 점이 한계인 것 같습니다.

 

본 글에서 다루지 않은 증명, 실험들은 아래 논문에서 확인하실 수 있습니다.

https://arxiv.org/pdf/2410.04577

Two papers accepted at ICML 2025.

카테고리 없음 2025. 5. 18. 12:24 Posted by KDST

7월에 캐나다 밴쿠버에서 열리는 ICML 2025에 다음 2편의 논문을 발표하게 되었습니다. 

"When Model Knowledge meets Diffusion Model: Diffusion-assisted Data-free Image Synthesis with Alignment of Domain and Class"

"ELITE: Enhanced Language-Image Toxicity Evaluation for Safety"

 

 

안녕하세요 KDST팀 이원준입니다.

 

금일 진행한 세미나 논문에 대해서 공유드리도록 하겠습니다.

 

CVPR 2025에 accept된 논문이고, Yann Lecun과 Kaiming He가 저자에 포함되어 있는 논문입니다. 

 

Introduction

 

최근 Normalization 레이어는 필수적으로 사용되고 있지만, 

본 논문에서는 제안한 방법을 통해 이러한 Normalization 없는 trasnformer가 이와 비슷한 성능 혹은 더 나은 성능을 입증한 논문입니다.

 

본 논문에서는 Normalization을 대체하기 위해, Dynamic Tanh (DyT)를 제안합니다. 

DyT

 

위 방식은 굉장히 심플한 방식만으로 기존에 사용되어왔던  Normalization을 대체함으로써 효과성을 입증합니다.

 

LN의 인풋과 아웃풋에 대한 시각화
Tanh 함수의 shape

 

위 그림에서 저자들은 초기 레이어에서는 LN의 인풋과 아웃풋의 시각화를 통해 초기 레이어에서는 선형적인 모습을 띄지만, 레이어가 깊어질 수록 Tanh와 같은 S-shaped curve를 나타내는 것을 관찰합니다.

 

 

저자들은 이러한 현상의 원인을 파악하기 위해 coloring을 통해 시각화하였습니다.

1. 토큰별로 시각화 : LN의 특성상 각 토큰들별로 Normalization을 수행하기 때문에, 토큰마다 각기 다른 mean과 variance를 가지게 됩니다. 이로 인해, variance가 작은 x들에 대해서는 강한 기울기를 가지고, variance가 큰 x들에 대해서는 작은 기울기를 가지게 되면서 Figure 4의 왼쪽처럼 점점 S자 모양의 형태를 가지게 되는 것을 확인할 수 있습니다. 

 

2. 채널별로 시각화 : 채널별로 시각화를 해본 결과, 몇몇 채널들이 매우 큰 값을 가지는 현상을 발견하였고, 그러한 값들은 Normalization 레이어에 의해 값이 압축되고 있는 현상을 관찰합니다. 

 

DyT 수식

 

본 논문에서 제안한 DyT는 위와 같습니다. 

감마와 베타의 경우에는 LN의 scaling & shift를 그대로 적용하였고, tanh의 인풋에도 scaling을 할 수 있는 알파값에도 learnable한 파라미터를 추가하였습니다.

 

본 논문에서 제안한 방식은 transformer에서 사용되는 GELU or ReLU와 같은 activation function을 대체하는 것이 아니라, attention block, FFN block, final normailzation layer에 사용되는 normailzation을 대체하는 것임을 유의하시길 바랍니다.

 

Experiments

 

본 논문에서는 굉장히 다양한 task와 도메인에서의 실험을 진행함으로써 DyT의 효과성을 입증합니다. 

 

 

 

위 실험 결과와 같이 Vision & NLP task에서 사용되는 다양한 Transformer 기반 architecture에서 DyT를 사용함으로써 기존의 LN 혹은 RMSNorm에 비해 우수하거나 동일한 성능을 보임임을 증명합니다.

 

Analysis

 

위 테이블은 기존 LN을 더욱 효율적으로 개선하여 LLM에 많이 사용되는 RMSNorm보다 DyT가 훨씬 더 효율적임을 나타내는 결과입니다. 한 layer의 lateny의 경우 40~50% 개선을 이루었으며, 전체 모델에 대해서는 7~8%정도 효율적인 latency를 보여줍니다.

 

위 실험은 tanh가 아닌 hardtanh, sigmoid와 같은 다른 함수로 변경한 실험입니다. 위 테이블에서 identity는 항등함수로 인풋 값 그대로 아웃풋을 내보내는 항등 함수를 의미합니다. 실험 결과 tanh가 가장 우수한 성능을 보이며, 저자들은 tanh의 smoothness와 zero-centered한 특성 때문에 가능한 현상이라고 설명합니다.

 

 

위 실험의 경우 tanh에 스케일링 목적으로 사용되는 알파 값이 훈련 중과 훈련 후에 어떻게 변경되는지에 대한 시각화 그림입니다. 실험 결과, 1/std 값을 따라가는 현상을 관찰할 수 있고, 이는 곧 알파 값이 normalization의 역할을 일부 수행하는 것으로 해석할 수 있습니다. 

 

Conclusion

 

결론적으로, Deep Neural Networks에서 필수적으로 사용되었던 normalization에 대한 새로운 시각을 열어주는 논문이라고 생각됩니다. 

 

본 글에서 담지 못한 실험과 다양한 ablation study들은 논문을 참고하시면 확인하실 수 있습니다. 

 

감사합니다.

안녕하세요. KDST 한용진입니다.

 

이번에 소개해드릴 논문은 2025년도 ICLR에 게재된 "Resolution Attack: Exploiting Image Compression to Deceive Deep Neural Networks"에 대해 소개해드리겠습니다.

 

기존에 딥뉴럴넷 모델을 공격하는 기법들은 주로 adversarial perturbation이나 noisy label에 대한 robustness 연구가 진행되어 왔습니다. 반면 resolution에 대한 robustness 연구는 거의 이루어지고 있지 않습니다. 하지만, 저희는 일상생활에서 생각보다 자주 low-resolution image를 접하고 있습니다. 예를 들어, 네트워크 비용 감소를 위해 SNS에 사진을 업로드 시 이 사진은 압축되어 전송될 것이며, 자율주행 시스템이나 찍히는 멀리 떨어져 있는 피사체의 경우에도 low-resolution image의 성격을 띠게 됩니다. 이러한 경우 high-resolution과 low-resolution에 대한 robustness는 분명 다루어져야 할 문제라고 생각합니다.

 

본 논문에서는 high-resolution과 low-resolution class의 semantic 정보를 모두 가지고 있으면서 high-resolution에서는 높은 fidelity를 갖고 low-resolution에서는 다른 클래스로 오분류되는 이미지를 생성하는 Resolution Attack (RA) 방법을 제안합니다. 또한 source image가 주어졌을 때 해당 이미지와 유사한 이미지를 생성하도록 하는 Resolution Attack with Source image (RAS) 방법을 추가로 제안합니다.

 

RA 공격을 통해 생성된 이미지는 아래 Figure 1. 처럼 high-resolution image의 클래스는 guitar이지만 이를 low-resolution으로 downsampling하면 dog 클래스로 분류됩니다.

 

먼저 RA와 RAS에 대한 problem formulation을 해보겠습니다.

Resolution Attack 두 클래스 쌍 ($C_L$, $C_H$)가 주어졌을 때, RA 알고리즘은 두 semantic 정보를 갖는 high-resolution image $x$를 생성합니다.: $x$는 클래스 $C_H$에 속하며 downsampling된 $x_\downarrow$는 클래스 $C_L$에 속한다. 이를 공식화하면 아래와 같습니다:

$$M(C_L, C_H) = x$$

$$f(x) = C_H \quad f(x_\downarrow) = C_L$$

 

Resolution Attack with Source image

 

RA의 성질을 만족하면서, 사전에 정의된 source image $I_s$와 유사한 이미지를 생성합니다. 이를 공식화하면 아래와 같습니다:

$$M(C_L, C_H, I_s) = x$$

$$f(x) = C_H \quad f(x_\downarrow) = C_L$$

$$min D(x_\downarrow, I_s)$$

 

이때 $D$는 $I_s$와 $x_\downarrow$의 유사도를 측정하는 distance metric입니다.

 

 

Dual-Stream Generative Denoising Module (DS Module)

DS 모듈은 Figure 2.처럼 매 step마다 noise가 주어졌을 때 low-resolution에 대한 prompt $P_L$과 high-resolution에 대한 prompt $P_H$에 대응되는 $\epsilon_L$과 $\epsilon_H$를 각각 생성합니다 (prompt 예시: "a photo of dog"). 그림에서 언급된 U-Net은 Stable Diffusion v1.5입니다. 생성된 $\epsilon_L$과 $\epsilon_H$는 가우시안 필터를 통해 다시 한번 해상도를 조절한 뒤 합쳐져 다음 step의 입력값으로 사용됩니다. 이를 공식화하면 다음과 같습니다:

$$\epsilon_L=\epsilon_\theta(P_L) \quad \epsilon_H=\epsilon_\theta(P_H)$$

$$\epsilon=f_L(\epsilon_L)+f_H(\epsilon_H)$$

총 step 수는 300이며 처음/마지막 20 step은 low/high-resolution만을 적용하고 나머지 260 step은 두 해상도를 모두 고려하여 이미지를 생성하게 됩니다. 이는 diffusion model이 초반에는 low-resolution에 해당하는 구조들을 먼저 생성하고 이후에 더 세부적인 특징들을 만들어낸다고 알려져 있는 것을 응용한 것입니다.

 

Structural Guidance Module (SG Module)

SG 모듈은 Figure 2.에서 볼 수 있듯이 source image $I_s$와 유사한 이미지를 생성하기 위해 DDIM inversion과 ControlNet을 활용합니다. Diffusion 모델은 주어진 이미지를 가우시안 노이즈로 보내는 동안 실질적으로 low-resolution에 해당하는 구조들은 꽤 많은 step이 지났음에도 불구하고 제대로 사라지지 않는 모습을 보입니다. 본 논문에서는 이러한 부분을 이용하여 DDIM inversion을 통해 얻은 $I_s$의 noise $\epsilon$을 DS 모듈의 입력으로 제공합니다.

한편, ControlNet을 통해 이미지에 제약조건을 주어 해당 조건을 만족하는 이미지를 생성할 수 있도록 합니다. 이때 low-resolution에는 depth map이 사용되고 high-resolution에는 softedge image가 사용됩니다.

 

본 논문에서는 학습 데이터셋이 가지고 있는 클래스에서만 $C_H$를 선정할 때는 labeled attack이라 부르고, 반대로 학습 데이터셋에 존재하지 않는 추상적인 클래스에 대한 공격은 unlabled attack이라고 정의하였습니다.

 

Figure 3.과 Figure 4.에서 알 수 있듯이 label에 해당하는 high-resolution image가 생성되고 이를 dowmsampling 했을 때 $C_L$ (e.g. dog)에 대응되는 이미지가 나오는 것을 확인할 수 있습니다. 사실 high-resolution image를 봤을 때 이것이 이상하다는 것을 충분히 알아차릴 수 있어서 본 연구의 한계가 드러나는 것 같습니다.

 

본 연구에서 정의한 $Corrective Attack Success Rate (ASR_C)$는 low/high resolution image들이 해당 클래스에 알맞게 분류되는 비율을 의미합니다.

 

Table 1.과 2.에서 알 수 있듯이 $Acc_L$에 대해 전반적으로 labeled attack이 unlabeled attack보다 높은 것을 알 수 있습니다. 또한 CLIP 점수 또한 0.298 이하로 준수한 점수를 보여주고 있습니다. $I_s$와 $x_\downarrow$의 유사도를 측정하는 SSIM 점수도 0.727로 상당 부분 유사하다는 것을 알 수 있습니다.

 

Table 4.와 Table 5.는 ViT계열의 모델에대한 RA와 RAS 실험입니다. CNN 모델 뿐만 아니라 ViT 계열에서도 본 논문이 제안하는 공격 기법이 잘 통한다는 것을 보여주고 있습니다.

 

앞서 살펴보았듯이, SG 모듈에서는 depth map과 softedge image를 통해 source image의 semantic 정보를 유지하려고 합니다. Figure 5.는 이에 대한 실험으로 $C_L$과 $C_H$의 semantic gap이 작을 때 (e.g. dog and lion) depth map만 적용하는 것이 오히려 좋았다고 하며 반대로 semantic gap이 클 때 (e.g. dog and guitar)는 아무것도 적용하지 않는 것이 더 좋았다고 합니다.

 

Figure 7.에서는 ControlNet의 파라미터를 조절하여 depth map과 softedge image가 적용되는 강도를 조절한 실험 결과입니다. 강도를 약하게 하면 source image와의 유사도가 감소하는 것을 확인할 수 있습니다. 하지만 반대로 강도가 너무 강하면 생성된 이미지의 품질을 저하시키는 경향을 보이고 있습니다.

 

Figure 6.에서는 RAS가 source image와 유사한 이미지를 생성하는 것이니 face swapper로서의 역할도 할 수 있음을 보여주고 있습니다.

 

본 논문에서는 Diffusion 모델을 활용하여 low-resolution과 high-resolution semantic 정보를 모두 유지함과 동시에 low-resolution image가 오분류될 수 있도록 하는 기존에 없었던 새로운 공격 기법을 소개하고 있습니다.

 

글을 읽으시면서 제가 잘못 해석한 부분/수정이 필요한 부분이 있거나 토의가 필요하신 경우에 댓글 달아주시면 감사하겠습니다.

 

감사합니다:)

 

이상 논문 소개를 끝마치도록 하겠습니다.

---

이번에 소개해드린 논문을 읽어보시면서 어떤 점들이 떠오르셨나요? 금주 저희 연구실에서 진행한 논문 세미나에서 나온 이야기들을 간략하게 공유해보고자 합니다.

 

1. 공격 시나리오가 조금 더 현실성 있었으면 좋았을 것 같다. low-resolution image가 64x64 픽셀 크기로 변환되는데, 사실 이것보다 더 커도 되는 경우도 많고,  실제로 이렇게 사용하는지 의문이다. 

 

실제로 논문 리뷰에서도 공격 시나리오의 현실성에 대해서 활발하게 논의가 되었으며, rebuttal 이후에도 본 논문의 한계로 지적되었습니다.

 

2. Figure 3., 4.에 대해서 일반적으로 low-resolution image가 조금 이상하면 압축이 되어서 그런가 보다 하면서 넘어가는 경우는 많은데, high-resolution image는 조금이라도 이상한 부분이 보이면 image가 이상하다는 것을 바로 알아차릴 수 있지 않은가? 생각보다 생성된 image가 artifact인 느낌이 들어서 본 연구의 한계 중 하나인 것 같다.