Short-006, LXMERT: Learning Cross-Modality Encoder Representations from Transformers (2019-EMNLP)

■ Comment

이 논문은 언어 데이터만을 다룬 것은 아니고 언어와 영상의 멀티모달을 학습시킨 것이다.

0. Abstract

영상과 언어의 추론은 비주얼 컨셉, 언어의 의미 둘다 알아야하고 두 개의 align이 필요하다.
LXMERT는 큰 스케일의 Transformer으로 이것을 해결하려고 한다.
pre-training 작업으로는 다음을 사용한다.
- masked language modeling
- masked object prediction (feature regression and label classification)
- cross-modality matching
- image question answering.
Fine-tuning 한 후에는 VQA에서 SoTA 성능을 보여준다.

2. Model Architecture

2.1 Input Embeddings

Word-Level Sentence Embeddings
- Wordpiece tokenizer을 이용하여 embedding을 한다.
Object-Level Image Embeddings
두 개의 입력을 받아 feature 값으로 사용한다.

3. Pre-Training Strategies

3.1 Pre-Training Tasks

3.1.1 Language Task: Masked Cross-Modality LM

그림 2에서 밑에 있는 부분을 말한다.
BERT의 MLM 부분과 비슷한 역할을 담당한다.
단, cross-modality encoder가 중간에 feature을 융합하는 과정이 있다.

3.1.2 Vision Task: Masked Object Prediction

그림 2에서 윗 부분에 있는 것을 말한다.
여기서는 그 selfie라는 BERT 방법을 이용한 이미지 pre-training 모델 만드는 것과 비슷하게 한다.
즉 random masking한 obejct를 예측하는 식으로 학습한다.
subtask로는 RoI-Feature Regression와 Detected-Label Classification가 있다.

3.1.3 Cross-Modality Tasks

그림 2에서 중간 부분에 있는 블락을 말한다.
언어와 영상간의 stong cross-modality representation을 학습하는 역할
이것을 학습하기 위해 다음의 두 가지를 활용한다.
Cross-Modality Matching
Image Question Answering (QA)

4. Experimental Setup and Results

5. Analysis

6. Related Work

7. Conclusions

cross-moadlity 프레임워크 LXMERT으로 영상과 언어 사이의 관계를 학습했다.
Transformer encoder을 기반으로 모델을 구축하였다.
이것은 다양한 image-sentence 쌍의 데이터로 pre-training task을 수행하였다.
VQA, GQA와 같은 곳에서 SoTA을 달성하였다.

Reference

https://arxiv.org/pdf/1908.07490.pdf

댓글