CV-009, NL-121, Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline (2020-ECCV)

◼ Comment

  • 자세하게 읽지는 못했지만, 간단히 정리하자면 text-image 모델을 만드는데 pre-training을 하여서 성능을 향상했다는 것이다.
  • 즉 Conceptual Captions와 Visual Question Answering에 대해 pre-training을 하고 VisDial에 fine-tuning해서 SoTA을 달성했다는 것
    • pre-training을 할 때는 BERT에서 일반적으로 사용하는 MLM, NSP도 사용하고 추가적으로 MIR이라해서 masked image region prediction이라고 하는 것도 추가한다.
    • MIR은 MLM처럼 이미지에서 일부분을 마스킹하여 이부분을 맞춘다고 보면 된다.
  • 근데 성능은 2개의 metrics (NDCG, MRR)으로 평가하는데 이 2개가 trade-off라는데 .. (정확히 뭘 말하고 싶은지 모르겠다)
  • fine-tuning은 VisDial의 dense라는 annotation label이 있는데 이걸 이용했다고 한다.
    • 이 데이터를 몰라서 직관적으로는 이해가 안되지만, 보통은 dense anntotation을 이용안하는 것처럼 들렸다.

    • dense는 위와 같이 1,0이 아닌 candidate에 대한 점수 개념이다.
    • 정확히는 loss는 어떻게 설계했는지 모르겠다.
  • 개인적으로는 text-image 융합 모델을 어떻게 설계하나가 궁금해서 봤는데 이 논문은 pre-training을 시켰다는 것이다.
    • 근데 SIMMC2.0 과는 다르게 VQA와 같은 널리 알려진 데이터를 이용하였다는 것이다.
    • fine-tuning에 사용되는 VisDial도 response selection과 같은 것이다.
    • object은 Faster RCNN을 이용해서 추출했다고 한다.
    • SIMMC 2.0은 멀티모달 대화형 데이터같은 것이므로, 이와는 살짝 느낌이 다르다.
    • 뭐 크게 보면 비슷할 수도 있긴하다.
  • 모델
    • 모델은 ViLBERT을 사용하여 fine-tuning 시킨 것이라고 한다.

0 Abstract

  • visual dialog에서 이전의 연구는 딥뉴럴 모델을 VisDial에서만 학습하는 것이 중점적이었다.
  • 대신에, 우리는 visual dialog로 transferring하기전에, 관련된 vision-language datasets에 대해 pretraining을 활용하는 접근법을 소개한다.
  • 우리는 최근에 제안된 ViLBERT 모델을 멀티턴 visually-grounded conversations에 적용한다.
  • 우리의 모델은 Conceptual Captions [3]와 Visual Question Answering [4] 데이터세트에 대해 pretrained되고 VisDial에 대해 finetuned된다.
  • 우리의 가장 좋은 싱글 모델은 이전의 출판된 연구들보다 (모델 앙상블 포함하여) NDCF와 MRR에서 1% 보다더 성능이 좋다.
  • 그 다음, 우리는 VisDial 에서 "dense"로 어노테이션된 것을 사용하여 추가적인 finetuning을 하여 NDCF을 더 높게 이끈다. 
    • 베이스 모델보다 10%이상 올렸으나, MRR은 17%이상 떨어진다.
  • 이것은 두 개의 사전 metrics 사이의 trade-off을 보여준다. (NDCG and MRR)
    • 우리가 찾은 이것은 questions에 대한 기존의 ground-truth answers와 연관이 적은 dense annotations 때문이다.

1. Introduction

  • 최근 몇년동안, Visual Dialog [1, 5-25]의 놀랍도록 진행되었다.
    • Das의 초기노력으로 박차를 가하여 이미지, 대화 히스토리가 question-answer pairs의 시퀀스로 구성되었을 때의 task을 정의하였다.
    • question-answer pairs: large-scale dataset와 evaluation metrics와 함께 question에 맞는 자유로운 형식의 natural language answer을 예측하기 위한 이미지에 따라오는 question
  • 테스크에서 state-of-the-art는 20% 이상 (54->74) 향상되어왔고 original task는 챌린지 도메인에서 확장되어왔다. (video understanding, navigation assistants)
  • 이것은 유망하지만, progress의 많은 부분은 개별적으로 발생해왔고, VisIdal 데이터세트에서만 정교하게 뉴럴 구조들이 학습되어왔다.
  • 이것은 한계가 있다.
    • Visual Dialog에 도움이 될 수 있는 vision 및 language 관련 작업 (예: 캡션 작성, 시각vision question answering)에 상당한 양의 공유된 추상화 및 시각 기반이 있기 때문에 
    • 모든 새로운 작업에 대해 대규모 데이터 세트를 수집해야 하는 비용이 많이 들고 불만족스럽기 때문에 낭비적입니다.
  • 이 연구에서, 우리는 우리믜 모델을 관련된 vision과 language datasets에 대해 pretrain하여 Visual Dialog에 transfer한다.
  • 우리의 연구는 이전의 CV와 NLP의 large models이 많은 데이터세트에 대해 간단히 self-supervised objectives로 학습되어 강력한 represetantions을 학습하여 다운스트림테스크로 transferred로 되는 연구로부터 영감을 얻었다.
    • 최근 연구는 이것이 vision와 language tasks로 확장되어와서 Visual Question Answering [4], Commonsense Reasoning [51], Natural Language Visual Reasoning [52], Entailment [53], Image-Text Retrieval [54, 55], Referring Expressions [56], and Vision-Language Navigation [57]에서 놀라운 결과들을 보여준다.
  • 이 연구에서, 우리는 VilBERT을 visual Dialog에 적용한다.
    • VilBERT는 두 모달리티중의 (language, vision) 각각에 대해 각각 Transformer-based encoders을 사용한다.
    • 두 모랕티리들의 상호작용은 co-attention layers이 가능하게 한다. 한 모달리티의 입력에 대한 attention는 다른 모달리티의 입력에 따라 달라집니다.
    • ViLBERT를 Visual Dialog에 적용하는 것은 쉬운 일이 아닙니다.
  • Visual Dialog 데이터세트는 이미지 기반의 conversation sequences을 가지고 10 rounds long까지 이루어진다.
  • 이들은 Conceptual Captions dataset 으로부터의 captions(2 문장이하를 가진) 혹은 question-answer pairs from VQA보다 더 확실히 길다.
    • 그리고 그래서 다른 input representation을 요구하고 BERT [36] 및 ViLBERT [2] 훈련에 사용되는 MLM NSP objectivesd에 대해 신중해야한다.
  • 적용된 모델은 이전의 출판된 연구들보다 1% 이상 좋은 성능을 보여주며 Visual Dialog에서 SoTA이다.
    • 그다음, 우리는 우리의 모델을 신중히 분석하고 'dense' annotations에 대해 추가적인 finetuning을 찾는다. 
    • 즉, 학습세트의 subset에 대한 각 questions에 해당하는 모든 100 answer options에 대한 relevance scores은 흥미로운 trade0off을 강조한다.
    • 모델은 ~74.5% NDCG (2019 VisDIal 챌린지 우승자보다 좋은)을 도달하지만 ~52% MRR (우리의 베이스모델모다 17% 낮은)을 획득한다.
  • VisDial의 dense annotations이 질문에 대한 실제 답변과 잘 연관되지 않아 일반적이고 불확실한 응답에 대해 모델에 보상을 제공하는 경우가 많기 때문에 이러한 현상이 발생합니다.
  • Contributions
    • We introduce an adaptation of the ViLBERT [2] model for Visual Dialog, thus making use of the large-scale Conceptual Captions [3] and Visual Question Answering (VQA) [4] datasets for pretraining and learning powerful visually-grounded representations before finetuning on VisDial [1]. Since captioning and VQA differ significantly from Visual Dialog in input size (<= 2 sentence descriptions vs. <= 10 question-answer rounds), this requires rethinking the input representation to learn additional segment embeddings representing questions-answer pairs. Our adapted model improves over prior published work by > 1% and sets a new state-of-the-art.
    • We next finetune our model on dense annotations i.e. relevance scores for all 100 answer options corresponding to each question on a subset of the training set, leading to even higher NDCG – more than 10% over our base model – but hurting MRR – more than 17% below our base model! This highlights a stark trade-off between the two primary metrics for this task – NDCG and MRR. Through qualitative and quantitative results, we show that this happens because dense annotations do not correlate well with the original ground-truth answers, often rewarding the model for generic, uncertain responses.
    • Our code is publicly available2 to encourage further work in large-scale transfer learning for VisDial. 

2. Related Work

3. Adapting ViLBERT [2] for Visual Dialog

  • Lu는 VilBERT을 소개하고, 이는 BERT을 2-stream multi-modal 구조로 확장시켜서 visual과 linguistic 입력들로 조인트 모델링을 한 것이다.
  • 두 모달리티들의 사이의 interaction은 co-attention layers을 통하여 가능하고, 즉 visual input에 대한 language에 대한 attention과 같이 다른 것을 조건으로하는 하나의 모달리티의 attending이다.
  • 이것은 visual 및 linguistic Transformer [35] blocks 사이의 key와 value matrices를 swapping하는 것으로 작동되었다.
  • We next discuss our changes to adapt it for Visual Dialog followed by our training pipeline.
  • Input Representation.
    • 모델이 image I, dialog history (image caption C을 포함한) H=, question 와 100개의 answer options 을 입력으로 받는다는 것을 기억하자.
      • 그리고 의 sorting을 return 하도록 요청받는다.
    • 우리는 dialog history의 t rounds와 question 을 따라오게 concatenate하고 각 question과 answer은 token으로 분리한다.
    • Wolf와 유사하게, 우리는 questions과 answers에 대한 다른 segment embedding s을 사용하여 모델이 두 개 사이를 구별하고 입력에서 question과 answer의 바운더리를 이해하도록 한다.
    • captions과 answers은 같은 segment embeddings을 공유한다.
    • 이미지를 나타내기 위해 [2,59]를 따르고 Visual Genome 데이터 세트에 대해 사전 훈련된 네트워크 Faster RCNN [60](ResNet-101 [31] 백본 포함) 객체 감지에서 이미지의 상위 36개 감지된 객체에 대한 객체 경계 상자와 시각적 특징을 추출합니다. 
    • 각 검출된 object에 대한 feature vector은 object의 regions로부터 mean-pooled cnn features로 계산되어진다.
    • 정규화된 왼쪽 위 및 오른쪽 아래 개체 좌표와 포함된 이미지 영역의 비율로 구성된 5차원 feature 벡터는 감지된 개체의 특징 벡터와 동일한 차원으로 투영되고 추가됩니다.
    • The beginning of this image region sequence (consisting of object detection features) is demarcated by an IMG token with mean-pooled features from the entire image.

3.1. Pretraining on Conceptual Captions [3]

  • [2]에 따라, 우리는 모델을 Conceptual Captions (CC) 데이터세트에대해 pretrain하고, 이는 aligned image-caption 쌍의 3M 샘플들을 가지는 large corpus의 데이터이다.
  • pretraining동안, 우리는 MLM loss와 masked image region (MIR) loss의 합으로부터 optimize된다.
  • MLM loss을 계산하기 위해, 우리는 입력 시퀀스에서 약 15%의 토큰들을 mask하고 모델이 이러한 tokens을 주어진 context에서 예측하도록 한다.
  • 유사하게, MIR loss을 계산하기 위해, 우리는 image features의 15%을 zero로 바꾼뒤, 모델이 마스킹된 object의 semantic 카테고리를 예측하게 한다.
    • Visual Genome으로부터의 1601 클래스들

3.2. Pretraining on VQA [4] 

  • VQA 데이터 세트는 대화 기록이 없는 독립적인 시각적 기반 질문-답변 쌍으로 해석될 수 있다는 점에서 Visual Dialog와 매우 관련이 있으므로 VisDial에서 미세 조정하기 전에 추가 사전 교육을 위한 자연스러운 선택입니다.
  • VilBERT [2]와 유사하게, 우리는 3129개 답변에 대한 분포를 예측하기 위해 이미지와 텍스트 표현 간의 요소별 곱 위에 작은 디코더(2계층 MLP)를 학습하여 VQA를 사전 학습합니다.

3.3. Finetuning on Visual Dialog [1] 

  • Visual Dialog을 finetune하기 위해서, 우리는 MLM, NSP, MIR losses을 사용한다.
  • MLM에 대해, 우리는 대화 시퀀스에서 tokens의 10%을 마스킹한다.
  • MIR loss에 대해, pretraining과 유사하게, 우리는 image features의 15%을 마스킹한다.
  • visual 대화의 discriminative task은 데이터세트로부터 random answers과 유명하고 nearest neighbors으로 구성된 100개의 answer options의 리스트로붜 ground truth answer을 식별하는 것이다.
  • We achieve this through the NSP loss. 
  • NPS head는 gt answer이 입력 시퀀스에 붙을 때 1로 예측하고 negative answer (남은 answer options에서 샘플링된)이 붙을 떄는 0으로 예측한다.
  • VisDial에서 각 이미지는 대화의 10 rounds을 가지고 있고, 10개의 positive와 negatvie samples을 이끈다. (NSP loss에 쓰임)
  • 이것들은 상당히 상관관계가 있는 샘플이기 때문에 훈련 중에 20개 중 2개를 무작위로 서브샘플링합니다. 
  • At test time, we use log-probabilities from the NSP head to rank the 100 answer options at each round.

3.4. Finetuning with Dense Annotations 

  • [1]의 저자는 최근에 dense annotations, 즉 훈련 세트의 하위 집합에 대한 질문에 해당하는 At의 모든 100개 답변 옵션에 대한 relevance scores를 발표했습니다.
  • 이러한 relevance scores의 범위는 0에서 1까지이며 특정 답변 옵션을 올바른 것으로 표시한 사람 애노테이터의 수와 사람 애노테이터의 총 수(=4)의 비율로 계산됩니다.
  • 따라서 1은 답변 옵션이 4명의 사람 어노테이터에 의해 올바른 것으로 간주되었음을 의미합니다.
  • 교육의 마지막 단계에서 이러한 조밀한 주석을 사용하여 모델을 미세 조정합니다.
  • Concretely, we use the NSP head to predict likelihood scores and then compute a cross-entropy (CE) 

4. Experiments 

5. Results 

6. Analysis

7. Implementation

8. Conclusion

  • VisDial에서 전송 및 미세 조정하기 전에 대규모 이미지 텍스트 데이터 세트에 대한 사전 교육을 가능하게 하는 Visual Dialog용 모델을 소개합니다. 
  • 우리의 모델은 ViLBERT[2]의 적응이며 우리의 최고의 단일 모델은 BooksCorpus[30], English Wikipedia(BERT 단계에서) 및 Conceptual Captions[3], VQA[4](ViLBERT 단계에서)에서 사전 훈련되었습니다. ), 
  • VisDial에서 미세 조정하기 전에 선택적으로 조밀한 주석을 사용합니다. 
  • 우리 모델은 NDCG 및 MRR에서 절대 ± 1%만큼 이전에 발표된 결과를 능가하여 최첨단 결과를 달성하고 미래의 'pretrain-then-transfer' 접근 방식을 위한 간단한 기준을 제공합니다. 
  • 우리의 결과에 대한 주의 깊은 분석을 통해 우리는 작업에 대해 최근에 발표된 밀집 주석이 원래의 실제 대화 답변과 잘 상관되지 않아 모델이 이러한 밀집 주석( NDCG) 대 원래 희소 주석(MRR). 이것은 더 나은 평가 지표에 대한 향후 연구를 위한 길을 열어줍니다. 
  • 마지막으로, 우리 모델은 판별식입니다. 
  • 답변 옵션 목록에서 좋은 답변을 선택할 수 있지만 답변을 생성할 수는 없습니다. 
  • 앞으로 우리는 강력한 생성 모델을 위한 강력한 디코딩 기술을 개발하는 것을 목표로 합니다.

Reference

댓글