기본 콘텐츠로 건너뛰기
인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode
Short-006, LXMERT: Learning Cross-Modality Encoder Representations from Transformers (2019-EMNLP)
- 이 논문은 언어 데이터만을 다룬 것은 아니고 언어와 영상의 멀티모달을 학습시킨 것이다.
- 영상과 언어의 추론은 비주얼 컨셉, 언어의 의미 둘다 알아야하고 두 개의 align이 필요하다.
- LXMERT는 큰 스케일의 Transformer으로 이것을 해결하려고 한다.
- pre-training 작업으로는 다음을 사용한다.
- masked language modeling
- masked object prediction (feature regression and label classification)
- cross-modality matching
- image question answering.
- Fine-tuning 한 후에는 VQA에서 SoTA 성능을 보여준다.
- Word-Level Sentence Embeddings
- Wordpiece tokenizer을 이용하여 embedding을 한다.

- Object-Level Image Embeddings
- 두 개의 입력을 받아 feature 값으로 사용한다.
- 그림 2에서 밑에 있는 부분을 말한다.
- BERT의 MLM 부분과 비슷한 역할을 담당한다.
- 단, cross-modality encoder가 중간에 feature을 융합하는 과정이 있다.
- 그림 2에서 윗 부분에 있는 것을 말한다.
- 여기서는 그 selfie라는 BERT 방법을 이용한 이미지 pre-training 모델 만드는 것과 비슷하게 한다.
- 즉 random masking한 obejct를 예측하는 식으로 학습한다.
- subtask로는 RoI-Feature Regression와 Detected-Label Classification가 있다.
- 그림 2에서 중간 부분에 있는 블락을 말한다.
- 언어와 영상간의 stong cross-modality representation을 학습하는 역할
- 이것을 학습하기 위해 다음의 두 가지를 활용한다.
- Cross-Modality Matching
- Image Question Answering (QA)
- cross-moadlity 프레임워크 LXMERT으로 영상과 언어 사이의 관계를 학습했다.
- Transformer encoder을 기반으로 모델을 구축하였다.
- 이것은 다양한 image-sentence 쌍의 데이터로 pre-training task을 수행하였다.
- VQA, GQA와 같은 곳에서 SoTA을 달성하였다.
Reference
댓글
댓글 쓰기