ICCV 2019 HarDNet Review

카테고리 없음 2019. 10. 31. 19:37 Posted by 랏츠베리

ICCV 2019 학회 참석에서 흥미롭게 보았던 HarDNet에 관한 리뷰를 짧게 적어볼까 합니다. HarDNet은 Harmonic Densenet의 약자로 Small, Fast, Accurate 3가지 장점을 부각하며 올해 ICCV에서 한 세션을 차지하였습니다. 관련된 연구 내용은 HardNet: A Low Memory Traffic Network을 참조바랍니다.

 

Abstract


HardNet은 SOTA로 알려진 최근 모델들의 성과들 (low MACs, small model size, high accuracy, etc..) 등이 real world inferencing time에 적합하지 않음을 강조하였습니다. 이들은 연산 과정에서 상당수 오버헤드로 차지하는 Feature Map에 대한 Memory Traffic 요구가 Inference latency의 상당한 영향을 미치고 있는 점을 부각하였고, 특히 그러한 단점이 application들로 활용되는 real-time object detection, high resolution video의 semantic segmentation 등에 대해 치명적이라고 주장합니다. 따라서, 그러한 요구사항이 가장 Dominant한 Network인 Densely Connected Network를 Harmonic Version으로 구현하여 Application의 Needs를 충족할 수 있도록 하였습니다.

Illustrations for DenseNet, LogDenseNet, SparseNet, and the Harmonic DenseNet (HarDNet)

 

Concepts


  본 연구의 컨셉을 짧게 정리하면 다음과 같습니다. 이들의 출발은 DenseNet Block은 Great Efficiency와 Large Memory Traffic의 성질을 띄고 있고, Traditional Compression 방식이 Accuracy Penalty를 감수하고 Memory Traffic을 줄이기 위한 노력을 해왔기 때문에 이들의 장점으로부터 Low Memory Traffic Network를 구현하였습니다. 구체적인 Block 모델링 방식은 아래와 같습니다.

  • Shortcut connection reduction
  • Balanced input/output channel ratio
  • Mainly use Conv3x3 (very few Conv1x1)
  • Conv-BN fusion friendly (Conv -> BN -> ReLU)

구체적인 논의는 링크의 논문을 참고하시면 됩니다.

 

Thanks,

 

Mincheol Park

댓글을 달아 주세요

2019 ICCV 논문 아이디어 정리

카테고리 없음 2019. 10. 30. 16:50 Posted by 우딘
본 게시물은 필자가 2019년 10월 27일부터 진행되었던 ICCV를 참관하고 난 후 인상깊었던 논문 및 아이디어를 포스팅 한 것입니다. 논문 저자가 발표한 presentation 자료에 있었던 그림을 첨부했으며 문제가 될 시 삭제하도록 하겠습니다. 

 

SinGAN: Learning a Generative Model from a Single Natural Image

(Tamar Rott Shaham, Tali Dekel, Tomer Michaeli) [1]


Award Paper중 하나였던 SinGAN의 발표는 굉장히 인상깊었습니다. SinGAN의 목표는 단일 training 이미지의 내부 통계를 알기 위해 unconditional generative model을 학습하는 것입니다. 다른 말로 요약하면 전체 이미지 샘플이 아니라 하나의 이미지 패치를 사용한다는 점에서 기존 GAN과 유사합니다. SinGAN은 multi-scale pipline을 사용하여 이미지 내의 내부 패치 분포를 학습합니다. GAN을 피라미드 형태로 쌓은 후 단일 이미지로부터 각각 다른 크기의 이미지에서 이미지 패치간의 분포를 학습하게 됩니다. 따라서 하나의 단일 이미지에 대하여 다양한 종횡비의 샘플을 뽑아서 training 할 수 있습니다.

 

 

단일 이미지로부터 다양한 이미지 샘플을 생성할 수 있으므로 다양한 task에서 좋은 성능을 냅니다.

 

1. 하나의 학습 이미지로부터 랜덤 이미지를 생성하는 task는 거의 원본과 유사한 fake 이미지를 만들어냅니다. 

 

2. 원본 이미지에 대해서 고해상도의 이미지를 생성하는 task도 우수한 성능을 보입니다. 

 

3. test를 했던 레벨 중 하나의 레벨을 선택해서 다운 샘플링된 페인트 버전을 할당하면 원본 이미지와 비슷한 텍스쳐와 레이아웃을 가진 fake 이미지를 생성합니다. 

소개한 task 외에도 다양한 task에 대한 시연이 ICCV에서 진행되었습니다. GAN에 대한 확장된 연구가 진행되면서 실제 이미지를 뛰어넘는 fake 이미지를 생성해내는것이 정말 인상깊었습니다. 이번 ICCV에서는 GAN에 대한 논문이 많이 발표되었고 앞으로도 GAN에 대한 연구가 활발히 진행될 것이라 전망합니다. 

[1] SinGAN : Learning a Generative Model from Single Natural Image
TAG gan, ICCV 2019

댓글을 달아 주세요

본 게시물에서는 "A deep convolutional neural network with new training methods for bearing fault diagnosis under noisy environment and different working load" (Zhang et al, 2018) 논문을 리뷰하도록 하겠습니다. 이 논문에서는 잡음이 많은(noisy) 환경이나 하중이 달라지는(load shift) 상황에 잘 대응하기 위해 매우 깊은 Convolutional Neural Network 모델을 사용했습니다.

 

Introduction


실제 작업 환경에서는 진동 신호에 잡음이 많이 포함되어 있고 베어링에 가해지는 하중이 변화하기 때문에 딥러닝 모델을 그대로 적용하기 어렵습니다. 이 논문에서는 CNN을 이용해서 두 상황에 잘 대응하는 bearing fault detection 모델을 만들었습니다. 또한 raw signal을 직접 모델의 input으로 넣음으로써, 복잡한 feature 추출 과정이나 noise를 제거하는 과정을 생략했습니다. 

 

Model Architecture of TICNN


모델 구조를 자세히 살펴 보겠습니다. 1D CNN 구조를 사용하고 있는데, 이는 저자 Zhang의 이전 논문 (A new deep learning model for fault diagnosis with good anti-noise and domain adaptation ability on raw vibration signals, 2017)에서 사용한 방식입니다. 이 논문에서는 anti-noise와 domain adaptation ability 능력을 향상시키기 위해 1D CNN 구조에 두 가지 트릭을 적용했습니다. 첫 번째 layer kerner에 dropout을 적용하는 것이고, 매우 작은 batch size로 학습하는 것입니다. 또한 마지막에는 모델의 안정성을 높이기 위해 ensemble learning을 적용했습니다. 모델의 전체적인 구조는 아래 그림과 같습니다. 

먼저 normalized temporal signal이 모델의 인풋으로 들어갑니다. 첫 번째 convolutional layer는 STFT같은 transform 과정을 거치지 않고 raw signal에서 feature를 뽑습니다. 그림을 보시면 첫 번째 layer의 convolution kernel 크기는 64로 굉장히 넓은 데 반해, 이어지는 layer의 kernel은 비교적 작은 것을 알 수 있습니다. 넓은 kernel을 사용함으로써 높은 주파수의 noise를 잘 억제할 수 있다고 합니다. 마지막에는 output node가 10개인 softmax layer의 결과로 베어링의 고장 상태를 판별합니다.

 

Kernel with Changing Dropout Rate


Small Mini-Batch Training


 

Ensemble Learning Based on Voting


Experiments


실험에는 CWRU Dataset을 사용했습니다. fault condition은 총 10가지입니다. noisy environment, different load domain 두 케이스에 대해 각각 실험했고 이 논문에서 제안한 TICNN 모델이 가장 좋은 성능을 보였습니다.

 

Data Description


Case Study I: Performance under Noisy Environment


Case Study II: Performance across Different Load Domain


댓글을 달아 주세요

"Network Slimming" Review

카테고리 없음 2019. 10. 24. 16:27 Posted by 랏츠베리

본 포스팅은 Deep Convolutional Neural Network의 running time 최적화를 위해 channel level pruning을 도입한 "Learning Efficient Convolutional Networks through Network Slimming" (ICCV 2017)를 리뷰하도록 하겠습니다. 포스팅에 앞서, 주제와 관련된 모든 연구 내용은 Learning Efficient Convolutional Networks through Network Slimming 참조했음을 먼저 밝힙니다.

History


  Convolutional Neural Networks (CNNs)가 다양한 Computer Vision Task 처리에 중요한 솔루션으로 도입이 된 이후, 실제 응용된 어플리케이션에서 활용하려다 보니 Practical Issue가 광범위하게 발생하였습니다. 이들 중 실제 Light-weight device에서는 CNNs의 Computation Issue가 핵심적으로 보고되었는데요. 이를 해결하기 위해 Depp CNN Architecture의 발전은 Reinforcement Learning을 활용하는 수준까지 도달하였지만, 실제 응용되기엔 한계가 있었습니다. 이를 위해 다양한 경량화 기법들 즉, Weight Pruning이나 Filter or Channel Pruning과 같은 Model Reduction 효과를 극대화시키는 기술들이 소개되었고, 본 포스팅은 이 범주에서 Channel Pruning을 활용한 Reduction 효과에 대한 부분에 해당합니다.

 

Filter or Channel Pruning Effect


  Pruning 기법은 모델 내부의 Node 간의 Weighted Sum으로 구성된 커넥션들 중에서 불필요한 커넥션을 제거하는 기술입니다. 이를 통해, 중요하고, 필요하다고 고려되는 커넥션의 구성으로 최소화 함으로써, 모델 축소를 극대화하는 효과를 볼 수 있습니다. 하지만, 커넥션을 구성하는 Weight Parameter들은 대체로 Matrix 형태의 정형화된 데이터 구조로 관리되는데, 상기 기술로 인해 메모리 최적화와 같은 부수적인 경량화 효과를 얻기 위해서는 Sparse Matrix를 변형하여 관리할 데이터 구조가 요구되었습니다. 이에 따라, Weight Pruning은 아직까지 일반적으로 사용하는 경량화 디바이스에서 효율적으로 Running하지 못한다는 지적이 있었고, 기존에 활요하는 데이터 구조를 충분히 유지하며 딥러닝 모델의 경량화를 극대화하는 방향의 연구가 논의되었습니다.

  Filter 혹은 Channel Pruning은 Deep CNNs 구조에서 Computation이 가장 Dominant한 Convolutional Layer의 경량화를 목표로 하여, 이 Layer에 존재하는 Intermediate Feature Neurons의 개수를 최대한 줄이는 거시적인 관점에서의 Pruning을 의미합니다. 이 Pruning의 효과로는 기존의 Structured Data Structure를 그대로 유지하며, 이들의 개수를 제거하는 형태이기 때문에, 일반적인 디바이스에서도 경량화 효과를 충분히 느낄 수 있습니다.

 

Network Slimming


  본 포스팅에서 언급하는 Network Slimming이라는 연구는 Intermediate Feature Neurons의 개수를 최적화하는 방법론을 제안한 논문이며, Architecture의 한계에 따라 사용 가능 여부가 결정되지만, 저의 주관으로는 최적화 파이프라인 구현을 위해 상당히 간단하고 Fancy한 접근이었다는 면에서 좋은 점수를 받지 않았나 생각합니다.

  Network Slimming은 1) Deep CNNs의 학습 방식을 Stochastic Gradient Descent (SGD)를 활용하고 있고 이를 통해 Batch 단위 학습을 하고 있다는 점, 2) Layer 마다 Batch의 정규화가 요구되며 Batch Normalization Layer (BN)을 대부분의 네트워크 모델이 채택하고 있다는 점, 두 가지 측면을 Motivation으로 삼아 BN의 Trainable Variable인 Scaling Factor를 활용하여 Layer의 결과물인 Output Channel에서 불필요한 Channel을 찾아 제거하는 아이디어를 제안하였습니다. 이는 Scaling Factor가 학습 중인 시점에 Sparse 하게 되도록 L1-norm으로 Regularization을 하였는데요. 이 기법으로 인해 충분히 Channel 개수를 최적화하여 모델을 "Slim"하게 만드는 데 성공하였습니다.

 

Network Slimming

 

L1 Regularization on Scaling Factor in BN

 

Network Slimming


  Network Slimming의 Pruning 파이프라인은 전체 모델 구조에 대하여 하나의 Pruning Ratio를 활용하여 Dynamic Layer-Wise Pruning으로 처리하였고, 이를 여러 횟수 반복하여 Fine Tuning하였습니다.

Slimming Pruning Pipeline

 


  서술한 연구 내용 외에 추가적인 연구 결과나 이해가 필요한 부분이 있으면 직접 링크된 논문을 읽어보시고 댓글을 남겨주시면 답변드리겠습니다. 제가 작성한 PPT 자료를 업로드 해드리니 필요하시면 참고해주세요.

 

첨부파일
다운로드

댓글을 달아 주세요

아마존 비전 관련 팀에서 일하시다가 올해 고려대에 부임하신 김현우 교수님께서 2019.09.27 (금)에 오셔서 세미나를 해주셨습니다. 본인이 연구해오셨던 다양한 주제들을 다루어 주셨는데, 주요 내용은 다음과 같았다.  

 

통계학의 "Mixed Effects" 모델을 딥러닝과 결합한 연구 (MeNets): 

http://openaccess.thecvf.com/content_CVPR_2019/html/Xiong_Mixed_Effects_Neural_Networks_MeNets_With_Applications_to_Gaze_Estimation_CVPR_2019_paper.html

 

MobileNetV2에 channel attention을 적용하여 더 효율적으로 만든 연구 (ANTNets):

https://arxiv.org/abs/1904.03775

 

그리고 가장 최근의 연구로서 Graph neural networks 관련된 Graph Transformer Networks (NeurIPS 2019 예정)까지 발표해 주셨다. 

 

저희 팀의 연구 관심사와 공통되는 부분이 많아서 많이 배울 수 있는 시간이었고, 이 자리를 빌어서 다시 감사의 인사를 드립니다. 

 

댓글을 달아 주세요