Short-001, Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization (2017-ICCV)
0. Abstract
- CNN에 visual explanations을 위한 연구
- Gradient-weighted Class Activation Mapping (Grad-CAM)가 핵심인데..
- final convolutional layer을 이용하여 중요한 부분의 coarse한 localization map을 생성한다.
- 즉 classification을 할 때, 어디서 보고 판단했는지를 본다는 것이다.
- 다음과 같은 상황에 적용할 수 있다.
- (1) CNNs with fully-connected layers (e.g. VGG),
- (2) CNNs used for structured outputs (e.g. captioning),
- (3) CNNs used in tasks with multi-modal inputs (e.g. VQA) or reinforcement learning, without architectural changes or re-training.
- ResNet architectures을 기반으로 하여 image classification, image captioning, and visual question answering (VQA) models에 적용해보았다.
- 이미지 분류 모델에서
- visualization을 통해 모델이 분류를 왜 틀렸는지 설명 가능
- adversarial images에 강인하다.
- outperform previous methods on the ILSVRC-15 weakly-supervised localization task
- more faithful to the underlying model
- help achieve model generalization by identifying dataset bias.
- Image captioning과 VQA서도 입력을 localization이 가능하다. (즉 위와 같이 visualization이 가능하다)
1. Extra
Reference- 논문: https://arxiv.org/pdf/1610.02391.pdf
- 깃허브: https://github.com/ramprs/grad-cam/
- 유투브 데모: youtu.be/COjUB9Izk6E
- 블로그: https://curaai00.tistory.com/11
댓글
댓글 쓰기