Short-001, Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization (2017-ICCV)

0. Abstract

  • CNN에 visual explanations을 위한 연구
  • Gradient-weighted Class Activation Mapping (Grad-CAM)가 핵심인데..
    • final convolutional layer을 이용하여 중요한 부분의 coarse한 localization map을 생성한다.
    • 즉 classification을 할 때, 어디서 보고 판단했는지를 본다는 것이다.
  • 다음과 같은 상황에 적용할 수 있다.
    • (1) CNNs with fully-connected layers (e.g. VGG), 
    • (2) CNNs used for structured outputs (e.g. captioning),
    • (3) CNNs used in tasks with multi-modal inputs (e.g. VQA) or reinforcement learning, without architectural changes or re-training. 
  • ResNet architectures을 기반으로 하여 image classification, image captioning, and visual question answering (VQA) models에 적용해보았다.
  • 이미지 분류 모델에서
    • visualization을 통해 모델이 분류를 왜 틀렸는지 설명 가능
    • adversarial images에 강인하다.
    • outperform previous methods on the ILSVRC-15 weakly-supervised localization task
    • more faithful to the underlying model
    • help achieve model generalization by identifying dataset bias.
    • Image captioning과 VQA서도 입력을 localization이 가능하다. (즉 위와 같이 visualization이 가능하다)

1. Extra

  • Text 버전으로 text sentiment classification도 할 수 있을 것 같아 찾아봤는데 역시나 있었다...(short-002 ㄱㄱ)
Reference

댓글