CNN Visualization

모플로 2021. 9. 13. 15:28

CNN은 blackbox이기 때문에 왜 학습이 잘 안되는지 보기가 힘들다.
CNN내부를 보고 시각화 한다는 것은 debugging tools를 갖는것과 같은의미다

1-1. ZFNet

ZFNet은 2013년 imagenet 대회에서 우승함으로 cnn을 시각화하는것이 눈을 호강하기 위함이 아닌 실질적으로 유의미한 작업이라고 판별받음

1-2. Filter weight visualization - Low level feature

1-3. visualization type

2-1. Embedding feature analysis - High level feature

1) Nearest neighbors(NN) in feature space를 활용

2) Dimensionality reduction

t-SNE - High level feature

Layer Activation - Mid, High level feature

Maximally activating patches - Mid level feature

hidden node의 한 채널에서 가장 큰값의 주변을 patch해서 확인
동그란 코에대한 색에대한 패턴,
분석하고자 하는 특정 layer를 하나 정한다
- ex) conv5 layer 중의 14/256 의 layer
예제 데이터를 backbone 네트워크에 넣어서 각 layer의 activation을 저장한다
해당 layer에서 가장 큰값을 갖는 위치를 파악하고, 그 위치에 오기전의 첫 입력 domain(이미지)에서 파악된 위치의 receptive fields에 대한 patch를 뜯어온다

Class Visualization - Last level feature

각 클래스를 판단할때 이 네트워크는 어떤 모습을 상상하고있구나 라는 생각이 가능
최종결론을 보고 CNN에 대한 해석을 내놓는다.
위의 값은추출하는 방법은 최적화를 통해서 찾아야한다.
loss를 만들어준다
- 두개의 loss를 합성한다.
- \begin{equation} I^{*}=\arg \max f(I)-\operatorname{Reg}(I) \end{equation}
- argmax 부분
  - I는 입력이고 f는 CNN모델
  - ex) 강아지 클래스에대한 스코어를 출력하는 부분만 고려해서 maximize
  - 랜덤한 이미지를 마구 넣으면 클래스 스코어가 낮게 나올텐데 이 값이 높게나오는 I를 찾는과정
- Regularization term
  - 앞부분 argmax만 사용하면 영상이 아닌 부분도 찾게된다 (0~~255 or norm된 0~~1 의 값이아닌값)
  - 그렇기때문에 Reg term을 추가한다
  - 각 픽셀의 제곱의 sum이 0이될수록 유리하다.
  - 람다를 곱해서 값을 컨트롤한다.
- Gradient Ascent를 사용한다, 부호만 다르고 같다.
Gradient ascent - Image synthesis
- 임의의 영상(random init or blank)을 분석하고자하는 cnn모델에 넣어준다
- backpropagation을 통해 입력이 어떻게 변해야 target score가 높아지는지 학습하고 input image를 업데이트
- 두번째 부터는 임의의 영상이 아닌 updated된 input image를 사용
- 위의 과정들을 여러번 반복

3-1. Saliency test

1) Occulusion map

2) via Backpropagation

위의 graident ascent를 이용한 몽환적인 이미지를 확인한것과 유사하다
랜덤이미지가 아니라 특정 이미지를 classification해보고 최종 결론이 나온 class에 결정적으로 영향이 미친부분에 heatmap표시
input에서 어떤 부분이 민감한지를 알 수 있다.
현재 데이터가 어떻게 해석되는지를 볼 수 있다.