내년 2월에 밴쿠버에서 열리는 AAAI 2024 학회에 작년에 이어 또 다시 2편의 논문을 발표하게 되었습니다.
올 한해도 모두들 수고하셨고 저희 블로그 방문해 주시는 분들도 새해 복 많이 받으세요~!
"REPrune: Channel Pruning via Kernel Representative Selection"
"Catch-up Mix: Catch-up Class for Struggling Filters in CNN"
내년 2월에 밴쿠버에서 열리는 AAAI 2024 학회에 작년에 이어 또 다시 2편의 논문을 발표하게 되었습니다.
올 한해도 모두들 수고하셨고 저희 블로그 방문해 주시는 분들도 새해 복 많이 받으세요~!
"REPrune: Channel Pruning via Kernel Representative Selection"
"Catch-up Mix: Catch-up Class for Struggling Filters in CNN"
안녕하세요 KDST 학부연구생 구미진입니다.
오늘 소개해드릴 논문은 CVPR 2023 Highlight 논문인 Feature Separation and Recalibration for Adversarial Robustness 입니다.
본 논문에서는 적대적 공격에 대한 방어 방법 중 Adversarial Training 방법과 결합해서 사용할 수 있는 FSR 모듈을 제안했습니다.
딥러닝 모델은 위 그림처럼 이미지의 Feature representation을 학습하여 의사 결정을 내립니다. 적대적 공격은 이미지에 미세한 노이즈를 추가하여 모델의 오분류를 유도하는데, 기존의 방어 방법은 변화가 생긴 활성화를 그냥 무시함으로써 공격에 대응하고자 했습니다. 그러나 이 방법은 중요한 정보의 손실을 초래할 우려가 있어, 이 논문에서는 더 어댑티브한 방법을 제안합니다.
적대적 공격으로 인한 활성화의 변화를 무시하는 대신, 해당 변화에서 유용한 정보를 추출하여 모델이 올바른 예측을 할 수 있도록 재보정하는 새로운 방식을 도입했습니다.
본 논문의 contribution은 다음과 같습니다.
1. 중요한 정보가 소실되는 기존의 방법에 대한 새로운 접근 방식을 제안함
2. easy-to-plugin, 다른 adversarial training method와 결합해서 사용 가능함
3. White box attack과 Black box attack 모두에 대한 효과적인 방어 성능을 실험적으로 입증함
레이어 간에 FSR 모듈을 추가하여 Feature를 robust feature와 non-robust feature로 분리하고, non-robust feature를 재보정하여 모델 예측에 사용합니다.
모듈은 크게 separation stage와 recalibration stage로 나뉩니다. Separation network S는 robustness map과 dot product 연산을 통해 robust, non-robust feature를 분리하며, Separation loss를 활용해 학습됩니다. Recalibration network R은 non-robust feature에서 중요한 정보를 추출하고, recalibration loss를 통해 학습됩니다.
각각을 어떻게 구현한 건지 살펴보면 다음과 같습니다.
FSR module은 다른 네트워크와 결합되어 end-to-end로 학습되어 사용할 수 있으므로 다른 Adversarial training framework에도 같이 사용할 수 있습니다. 이때 사용하는 Loss function은 classification, feature separation, recalibration loss를 모두 합쳐 놓은 형태입니다.
Adversarial defense의 고질적인 문제이기도 한데, 바로 natural image에 대한 성능 저하가 있다는 것이 이 연구의 한계로 언급됩니다. FSR 모듈은 모든 이미지에 adversarial perturbation이 있다는 가정 하에 동작하므로, natural image의 정확도는 감소합니다. 하지만 occasionally하게 데이터셋과 adversarial training method에 따라 오히려 정확도가 증가하는 경우도 있긴 했습니다.
올해 12월에 뉴올리언스에서 열리는 NeurIPS 2023에 아래 논문이 채택되었습니다.
이 논문은 딥러닝 초기에 중요한 역할을 했던 tanh 활성화 함수가 왜 ReLU 등 그 이후의 활성화 함수에 비해서 상대적으로 성능이 좋지 않은지 그 이유를 분석합니다. 또한, 그 단점들을 극복하고, ReLU 활성화 함수와 비슷한 성능을 달성하는 방법을 제시합니다. 결론적으로 활성화 함수의 비대칭성이 얼마나 중요한지를 보여주며, 이를 통해 활성화 함수에 대한 이해를 깊게 하고 있습니다.
"Tanh Works Better with Asymmetry"
안녕하세요, KDST팀 김동진입니다.
오늘 소개해드릴 논문은 “What Can Transformers Learn In-Context? A Case Study of Simple Function Classes
“로 NeurIPS2022에서 좋은 평가를 받은 논문입니다.
GPT-3 모델의 등장으로 번역과 같은 다양한 downstream task에서 Zero-shot 또는 few-shot으로도 준수한 성능을 낼 수 있게 되었습니다. 이러한 발전으로 prompt engineering에 관한 관심 또한 높아졌으며, 이번 논문은 prompt engineering의 방식 중 하나인 in-context learning에 관한 내용입니다. (In-context learing이란 모델의 weight가 update가 되지 않는 상황에서 query 입력과 in-context 예제로 구성된 prompt에서 in-context 예제들을 기반으로 query에 대한 예측을 수행하는 것을 말합니다.)
논문의 주요 내용은 아래와 같습니다.
본 논문은 in-context learning을 inference 때에 새로운 함수를 학습하는 문제로 정의하고, 잘 구성된 실험을 통해 GPT 모델이 in-context learing을 통해 간단한 함수들(linear function, sparse linear function, decision tree, 2-layer NN)을 특정 가중치를 넘어서 해당 함수들의 class에 대한 학습을 꽤 잘 수행할 수 있음을 보여줍니다.
또한, 더 나아가 training 때와 inference때의 함수와 입력 분포의 차이 그리고 inference때 in-context example과 query의 입력 분포의 차이가 존재하는 상황에서의 in-context learning에 대한 실험도 진행하였습니다. 개인적인 생각으로 training과 inference때의 분포 차이를 만들어낸 실험에서도 좋은 성능을 보이는 것으로 보아 in-context learning이 training 데이터에 대한 memorization에 의존하지 않는다는 것을 보여주는 것 같아 흥미로웠습니다.
논문에서 진행된 실험들이 자연어를 다루지는 않아 실험 결과들이 우리에게 친숙하게 다가오지는 않을 수 있지만, decoder-only transformer 모델의 in-context learning에 대한 가능성을 실험적으로 보여주어 다른 분들도 읽어보시길 추천해 드립니다. 감사합니다.
안녕하세요, KDST 팀 강민수입니다.
오늘 소개해드릴 논문은 "Segment Anything," 이고 Meta AI에서 공개한 논문입니다.
Segment anything은 모델과 데이터셋을 제안한 논문으로 foundation 모델을 지향하는 논문입니다.
NLP에서는 prompt engineering으로 이를 달성할 수 있었고, web-scale dataset이 있었기에 가능했습니다. 하지만, vision field에서는 이것이 매우 어렵습니다. CLIP이나 ALIGN도 language-vision model을 통해서 비슷하게 가능하게 했지만, foundation모델로 인정받지 못하는 것이 그것입니다.
본 논문의 목표는 segmentation task에서 foundation model을 만드는 것으로 3가지 방향으로 이를 가능하게 해보고 싶은 것입니다. 이를 위해서 3가지 의문점을 던집니다.
1. zero-shot generalization이 가능하게 되는 task는 어떤 것인가?
2. model architecture는 어떤 것을 선택해야하는가?
3. 어떤 데이터로 해당 task와 model을 학습시킬 것인가?
각 요소별로 살펴보면 첫번째는 promptable model을 생각해보아야 하고, architecture를 학습시키기 위해 broad dataset이 필요해집니다.
본 논문에서는 크게 4가지 task를 제안합니다.
1. 포인터 (이미지 내의 점을 찍는 prompt)
2. bounding box (detection의 bounding box)
3. region (ppt 그물)
4. text
모델을 구성하기 위해서 논문에서는 2가지를 고려했다고 합니다. Real-time과 ambiguity aware인데, real-time은 prompt encoder를 경량화해서 활용하고, web에서도 빠르게 돌 수 있는 모델을 제안했다고 합니다. 일단 이미지의 embedding만 되면 50ms 이내로 경량화해서 prediction에 활용할 수 있다고 합니다.
ambiguity aware는 각 prompt가 1개의 답만을 고르지 않게 하는 것을 말합니다. 아래 예시 이미지를 보시면 가방에 prompt를 찍었다고 해서 가방 사람, 지퍼 등 어떤 group으로 하느냐에 따라 prediction이 다를 수 있습니다. 해당 논문에서는 이를 한 개의 답안으로만이 아닌 여러 개의 답안이 나올 수 있도록 학습해야함을 의미합니다.
마지막으로는 이러한 architecture 를 학습할 수 있게 만드는 데이터를 어떻게 수집할 것인가에 대한 부분입니다. Real world에는 dataset이 부족하기 때문에 이를 효과적으로 늘릴 수 있는 engine을 제안합니다. 크게 3가지 stage로 구성되며, stage를 거듭할수록 사람이 annotation을 해줄 필요성이 적어집니다.
이를 통해서 지금까지는 없었던 dataset size를 만들 수 있었고, 이를 통해서 SAM을 최종적으로 학습시키게 됩니다.
위 이미지 처럼, 더 나은 annotation을 만들어 내기도 하고, 아래 이미지처럼 데이터셋에 대한 정보를 공개하기도 하니 자세한 내용은 원문을 참조해주시기 바랍니다. 감사합니다.