Short-006, LXMERT: Learning Cross-Modality Encoder Representations from Transformers (2019-EMNLP)

■ Comment

  • 이 논문은 언어 데이터만을 다룬 것은 아니고 언어와 영상의 멀티모달을 학습시킨 것이다.

0. Abstract

  • 영상과 언어의 추론은 비주얼 컨셉, 언어의 의미 둘다 알아야하고 두 개의 align이 필요하다.
  • LXMERT는 큰 스케일의 Transformer으로 이것을 해결하려고 한다.
  • pre-training 작업으로는 다음을 사용한다.
    •  masked language modeling
    • masked object prediction (feature regression and label classification)
    • cross-modality matching
    • image question answering.
  • Fine-tuning 한 후에는 VQA에서 SoTA 성능을 보여준다.

2. Model Architecture

2.1 Input Embeddings 

  • Word-Level Sentence Embeddings
    • Wordpiece tokenizer을 이용하여 embedding을 한다.
  • Object-Level Image Embeddings
  • 두 개의 입력을 받아 feature 값으로 사용한다.

3. Pre-Training Strategies

3.1 Pre-Training Tasks

3.1.1 Language Task: Masked Cross-Modality LM

  • 그림 2에서 밑에 있는 부분을 말한다.
  • BERT의 MLM 부분과 비슷한 역할을 담당한다.
  • 단, cross-modality encoder가 중간에 feature을 융합하는 과정이 있다.

3.1.2 Vision Task: Masked Object Prediction

  • 그림 2에서 윗 부분에 있는 것을 말한다.
  • 여기서는 그 selfie라는 BERT 방법을 이용한 이미지 pre-training 모델 만드는 것과 비슷하게 한다.
  • 즉 random masking한 obejct를 예측하는 식으로 학습한다.
  • subtask로는 RoI-Feature Regression와 Detected-Label Classification가 있다.

3.1.3 Cross-Modality Tasks

  • 그림 2에서 중간 부분에 있는 블락을 말한다.
  • 언어와 영상간의 stong cross-modality representation을 학습하는 역할
  • 이것을 학습하기 위해 다음의 두 가지를 활용한다.
  • Cross-Modality Matching
  • Image Question Answering (QA)

4. Experimental Setup and Results

5. Analysis

6. Related Work

7. Conclusions

  • cross-moadlity 프레임워크 LXMERT으로 영상과 언어 사이의 관계를 학습했다.
  • Transformer encoder을 기반으로 모델을 구축하였다.
  • 이것은 다양한 image-sentence 쌍의 데이터로 pre-training task을 수행하였다.
  • VQA, GQA와 같은 곳에서 SoTA을 달성하였다.
Reference

댓글