Keywords : Deeper Network, 3x3 kernels
이전 모델에 비해 더 많은 Layer를 사용하였다. (Deeper Network)
필터의 크기를 3x3으로 설정하여 (최소 단위) 네트워크를 더 깊게 구성 할 수 있도록 한다.
3x3 으로 설정하는 이유는 3x3이 상하좌우 위치 정보를 인식 할 수 있는 최소 단위이다.
3x3 커널을 3번 적용하는 것과 7x7 커널을 1번 적용하는 것의 결과 feature map의 크기는 동일하다.
하지만, 파라미터 계산 수를 계산해 보면 3x3을 3번 적용하는 것이 더 적은 파라미터를 요구한다.
(Conv)+ ReLU + Pooling 구조로 이루어져 있다.
레이어 개수를 점점 늘려가며 실험을 해서 레이어의 깊이에 따른 성능을 비교했다.
Keywords : Vanishing Gradient, Skip Connection, Bottleneck
깊이를 더 깊게 설계 하고 싶지만 오히려 성능이 떨어지는 문제가 발생 (Vanishing Gradient)
Skip conncetion을 통해 기존 정보를 보존한다.
Bottleneck 구조
Keywords : Depthwise Convolution (Computation) Inverted Residual (Memory)
모바일 및 임베디드 환경에 맞출 수 있는 모델 설계
Depthwise Seperable Convolution
Depthwise + Pointwise Convolution으로 구성
Depthwise는 각 채널 마다 따로 Convolution을 진행
Inverted Residual