NL-102, Pre-training via Paraphrasing (2020-Neurips)

◼️ Comment

  • 패러프레이징에 관심이 있던 와중, 제목이 심플하고 아이디어스러워 보여 읽어보았다.
  • 완벽히 세부적인 내용까지는 이해못했지만 ㅠㅠ 핵심은 다음과 같다.
    • 그림1처럼 패러프레이징으로 LM을 pre-training 하겠다. (즉 unlabled 코퍼스 뭉치들로 LM 모델을 만들겠다는 것)
    • 즉 문서 x가 있고 이와 같은 shards(조각)에 있는 문서 z로 보냈다가 오는 것이다. (z가 뭔지는 밑에서 설명)
    • 마치 번역에서 back-translation과 비슷한 느낌이나, 방식은 조금 다르다.
    • 일단 z가 구성되있다고 생각하면, x와 z사이의 유사도 score을 계산한다.
    • 이 점수와 z를 디코더의 입력으로 넣어줘서 x을 재구성하는 것이다.
    • 논문에도 써 있듯이, 마치 denoising auto-encoder와 비슷하다고 한다.
    • 유사도 점수는, 문서를 Transformer로 벡터화 시킨 후, cosine similarity로 계산한다.
    • 디코더는 z들을 concat하여 벡터화 시킨 후, Transformer decoder에 통과시켜 x을 생성하는데, 이 때 attention score에 유사도 점수를 넣어서 계산하는 것이 일반 Transformer decoder와 다른 점이다.
  • 여기서 살짝 이해가 안되는 것은 shards을 어떻게 구성하는가? 이다.
    • 논문의 2.4에서는 그것을 설명하는데 간단히 보면
    • 뉴스 같은데서는 같은 날 출판된 기사, 위키피다에서는 같은 기사를 512 길이로 잘라서 shards 후보로 가지는 것 같다.
    • 그리고 유사도 점수를 계산하여 threshold을 넘어가는 것을 같은 shards로 묶는 것 같다.
    • 여기서 유사도 점수를 계산하는 retrieved 모델은 사전에 학습된게 아니고 reconstruction 모델하고 같이 학습되는 식이다.
    • 즉, shards는 학습되면서 변경되는 것이고 10k마다 샘플링을 해주는 것 같다.
    • 또한 x와 z는 같은 언어가 아닐 수도 있어서 다국어 처리가 가능하게끔 한다.
    • 위 내용중에 틀린 부분이 있을 수도 있음..
  • 뭐 어찌되었든, 이렇게 학습하면 검색모델과 재구성모델 두 개가 생성된다.
    • 이 둘을 이용하여 다양한 테스크에서 실험을 했더니 성능이 꽤 나온 것으로 보여진다.
    • 다양한 어플리케이션에서 인퍼런스할 때, z 문서들을 어떻게 구성하는 과정이 안써있는데 학습할 때와 마찬가지로 같은 날에 출판된 뉴스기사나, 위키피디아에서 다른 위치에 있는 기사들이 z가 되는 것인가?
    • 만약 입력 x를 맘대로 주어지면 z는 어떻게 구성해야하는지?
    • 즉 어플리케이션에서 헷갈리는 부분이 있으나.. 위의 핵심이라도 일단 기억해두자 

0 Abstarct

  • 우리는 MARGE을 소개하고, 이는 pre-trained seq2seq 모델로 unsuperivsed multi-lingual multi-document 패러프레이징 objective으로 학습된다.
  • MARGE는 주로 쓰는 masked LM의 대안을 제시하고, 우리는 관련된 텍스트들의 (많은 언어들에서) 세트를 검색하면고 original을 생성하는 likelihood을 최대하는 조건으로 target text의 재구성을 self-supervise한다.
  • 우리는 랜덤 초기화만 주어져도 retrieval과 reconstruction을 같이 학습하는 것이 가능함을 보여준다.
  • objective는 paraphrase, translation, multi-document 요약, information retrieval의 관점을 노이즈하게 캡쳐하고 여러 tasks에서 강력한 zero-shot 성능을 가능하게 한다.
  • 예를 들어, 추가적인 task-specific training 없이, 우리는 document translation에서 BLEU scores 35.8까지 달성한다.
  • 우리는 더욱이, fine-tuning이 다양한 언어에서 discriminative와 generative tasks에서 강력한 성능 달성을 달성하고, MARGE가 현재까지 가장 일반적으로 pre-training 방법임을 보여준다.

1 Introduction 

  • masked language models (MLMs)의 변형들은 매우 효율적인 입력 텍스트의 부분에서 삭제하고 재구성함으로써 pre-training을 위한 self-supervision을 제공한다.
  • 이 논문에서, 우리는 MLMs에 대한 첫 번째로 다른 pretraining 대안을 소개한다.
    • self-supervision은 대신에 많은 언어들에서 관련된 문서들의 paraphrase collections을 학습함으로써 제공된다.
  • 더욱 구체적으로, 우리는 MARGE인 Multilingual Autoencoder that Retrieves and Generates을 소개한다.
  • 우리는 MARGE을 많은 언어에서 관련된 텍스트 세트를 먼저 검색함으로써 target text을 self-supervising로 재구성하고나서 그들을 조건으로 original 생성의 likelihood을 최대화하도록 한다.
  • 우리는 multi-source seq2seq 모델을 pre-train을 한다.
    • multi-source seq2seq 모델은 각 retrieved document을 분리해서 인코딩하고 target으로 디코딩한다.
    • 이 모델은 가능한 최상의 재구성을 제공하기 위해 필요한 적절한 입력에서 콘텐츠를 함께 변환한다
  • retrieval 모델 scores은 가장 연관된 retrieved documents에 대한 cross attention을 편향하는데 사용되어, retrieval 모델이 reconstruction loss으로부터 함께 학습되게 한다.
  • 우리의 접근법은 denoising auto-encoder의 새로운 type으로 볼 수 있다.
    • 여기서 noise는 retireval step으로부터 오고, masking보다 더욱 다양하다.
    • retrieved documents은 아마도 target과 적은 lexical overlap이 거의 없고, 아마 같은 언어가 아닐 것이나 동일한 기본 정보와 소통할 것이다.
  • pre-training task은 paraphrasing을 강조하고 모델이 외워야하는 백과사전 지식의 양을 줄인다.
  • retrieved documents의 세트와 relevance scores은 입력을 재구성해야하는 auto-encoder 바틀낵이다.
  • MARGE는 최근 연구인 최종 작업 모델의 일부분으로써 검색하는 것을 배우는 것과 연관이 있다.
    • 예를 들어, 문서의 evidence을 찾는것은 open domain question answering이다.
  • 이것은 좀 더 챌린지한 검색 문제로 이끌고 (우리와 달리) pre-training phase을 분리한다.
  • 전체적으로, 우리의 pre-trained 모델들은 전통적인 paraphrasing, translation, multi-document summarization, informatino retrieval 테스크들의 요소를 캡쳐한다.
  • 이것은 효과적인 zero-shot learning을 가능하게한다.
    • no fine-tuning으로 우리는 문서 번역에서 BLEU scores을 35.8까지 달성하고 요약에서 cross-linugal transfer보다 더 강한 베이스라인을 달성한다.
    • fine-tuning이 거의 또는 전혀없이 모든 작업을 수행 할 수있는 pre-trained된 모델을 향한 단계를 제공합니다.
  • fine-tuning와 함께, 우리는 많은 언어들에서 분류 및 생성 테스크들의 범위에서 경쟁력있는 성능을 masked LMs으로 달성하여 MARGE가 현재까지 pre-training 방법중 가장 일반적으로 적용하게 만든다.

2 Model 

2.1 Overview

  • pre-training 중간에, 모델에 대한 입력은 evidence documents 의 배치와 target documents 이다.
  • 모델은 evidence documents을 조건으로 하여 targets의 likelihood을 최대화하도록 학습이되고, 각 taget에대한 각 evidence document의 relevance은 다음과 같다.
    • 모델은 먼저 relevance score 을 document 와 쌍 사이에서 계산한다.
      • 각 문서를 embedding하고 그들 사이의 cosine 유사도를 구한다. (2.2절)
    • 모델은 그리고나서 수정된 seq2seq 모델을 사용하여  및 을 조건으로 각 을 재구성하는 likelihood을 계산한다.
    • 유사도 점수는 모델이 좀 더 관련있는 evidence documents을 attend하도록 한다.
    • 재구성 loss을 backpropagating은 그래서 seq2seq model과 relevance model을 둘 다 향상 시킨다.
    • 우리는 batches을 구성해서 검색을 위한 relevance model을 사용해서 evidence documents가 targets과 관련있게 한다. (§2.4)
  • 이 모델을 학습하는 것은 치킨-달걀 문제이다. (닭이 먼저냐 달걀이 먼저냐)
  • 만약 배치들이 관련있는 evidence documents을 포함하지 않는다면 reconstruction와 relevance 모델들은 효과적으로 업데이트될 수 없으나, 배치 구성은 relevance 모델에 의존한다.
  • 그러나, 우리는 실제로 모델이 랜덤 초기화로부터 학습이 가능하고, 이는 효과적으로 각 단어에 대한 랜덤 피쳐의 hashing의 타입을 제공한다.

2.2 Relevance Scores

  • 문서 쌍에서 relevance scores 을 배우기 위해서, 우리는 document encoder g가 토큰 리스트를 고정된 크기의 representation로 매핑하도록 학습한다.
  • 우리는 동일한 encoder로 target과 evidence document에 적용하고 그들의 representations 사이의 cosine 유사도를 구한다.

  • 이 함수는 reconstruction model (2.3절)에 사용되며, reconstruction loss로 학습이 된다.
  • 또한 관련된 문서들의 배치들 구성하는데 사용된다. (2.4절)
  • target과 evidence documents 둘 다에 동일한 인코더를 사용하는 것은 많은 어휘가 겹치는 것이 비슷한 representations으로 투영되게 하기 때문에 심지어 랜덤 모델들이 의미있는 similarity 함수를 계산하게 한다.
  • 이것은 초기화에서 중요하다.
  • 우리는 4-layer Transformer의 마지막에서 첫 번째 토큰의  representation을 취함으로써 documents을 인코딩한다.
  • 우리는 reconstruction model 인코더의 처음 4개 layers와 파라미터를 공유하고, 이는 computation을 줄이고 multi-task learning이 가능하게 한다.

2.3 Reconstruction Model

  • evidence 문서들 의 세트와 similarity scores 가 주어졌을 때, reconstruction model은 target 문서 의 likelihood을 계산한다.
  • 이것은 auto-encoder loss을 제공하고 여기서 document 의 reconstruction은 를 간접적 조건으로 하나 검색된 documents와 relevance scores가 중간 바틀낵을 제공한다.
  • 먼저, 입력 documents들은 개별적으로 bidirectional Transformer으로 인코딩되고 embeddings을 concatenated된다.
  • similarity score은 decoder에서 encoder로 cross-attention을 편향하도록 사용되어서 decoder가 좀 더 연관있는 evidence documents을 attention할 것이다.
  • 좀 더 관련있는 evidence documents을 사용하는 것은 reconstructing 의 likelihood을 향상시킬 것이고 (2)에서 gradient descent은 similarity scores의 퀄리티를 향상시킬 것이다.
  • Standard Transformer seq2seq 모델들은 target 문서 와 evidence document 의 모든 요소들 사이에서 cross-attention 확률의 matirx을 계산한다
    • 와 은 layer l와 head h에서 query와 key representation을 계산하고 은 에 대한 요소들에서 softmax normalised한 것이다.
    • 위의 표기가 즉 일반적인 softmax이고 softmax의 밑의 표기가 그걸로 softmax을 취한 것으로 여기선 열 zj에서 각각 취했다는 것인 듯.
  • 우리는 대신에 evidence documents 의 세트에서 cross attention을 게산하여 attention scores을 관련있는 document score로 편향시킨다:
    • where  is a trainable scalar parameter that weights the importance of the document similarity score.
    • 수식만 봤을 때 K()은 을 concat하여 representation을 구한 것으로 보인다.
  • Guu은 관련된 접근법으로 target x의 likelihood가 우리의 latent documetns의 소외시킴으로써 계산한다: 
  • 우리의 attention 같은 메커니즘은
    • (1) 좀 더 비싸다 왜냐하면 한 timestep에서 한 문서의 토큰에 완전히 attention을 할 수 있고 다른 timestep에서는 다른 document에 토큰에 대해서 attention을 하기 때문이다.
    • (2) 좀 더 효율적이다 왜냐하면 p(x|z)은 각 에 분리되어서 계산되지 않기 때문이다.
  • However, our method does not allow attention from z to x. 
  • 정리하면 다음과 같은 과정이다.
    • 문서를 그냥 문장이라고 생각하자. (실제로는 문장)
    • x문장: "내 이름은 홍길동이야"(한국어)
    • z문장들: "I am Kim"(영어), "Yo soy lee"(스페인어), ...
    • 즉 x문장과 z문장들을 이용해서 x을 재구성하는 denoising auto-encoder 형태다.
    • 일단 x와 각 z와의 유사도를 계산한다 (cosine)
    • 그리고 이 유사도 점수와 z를 decoder에 넣어서 x을 재구성한다.
    • 유사도 점수를 이용하기 위해 디코더로 재구성할 때, 일반 Transformer와 달리, 식(4)처럼 softamx에 유사도 점수를 더해서 같이 계산한다.
    • 이렇게 학습하면 유사도 점수를 구하는 모델과 seq2seq 모델 둘 다 향상이 된다고 한다.
    • 여기서 궁금한건 z문장들의 세트 후보들은 어떻게 선택하는지??
    • 유사도 점수가 높은 애들 몇 개를 뽑아서 하는 것인가?
    • --> 2.4섹션

2.4 Batch Construction

  • 이 섹션에 자세히 설명 된대로 대상 문서 을 재구성하는 데 유용한 정보를 제공하는 evidence 문서 세트 을 생성하기 위해 배치가 구성됩니다.
  • 전체적으로, 우리는 데이터를 관련된 문서의 조각들로 나눈다.
  • 주기적으로 relevance 모델을 사용하여 각 조각 내 문서 쌍 간의 유사성을 계산하고 가장 강력한 연결을 유지하기 위해 threshold 을 적용합니다.
  • 마지막 배치들은 evidence와 target documents 사이의 연결성을 최대화하도록 구성된다.
  • Document similarity 
    • 우리는 document similarity을 2.2절과 똑같은 방법으로 계산한다.
    • 모든 문서들 x는 vector g(x) ∈ R^d로 인코딩되고나서, 모든 문서들사이의 pair-wise 유사도는 single matrix 곱으로 계산된다.
  • Data Sharding 
    • 우리는 간단한 heuristic 제약들을 사용해서 문서들을 관련된 shards(조각)로 나누고 검색의 accuracy와 효율성 둘 다를 향상시킨다.
    • 특히, 뉴스 텍스트에서 동일한 조각에 있는 문서들은 그들이 같은 날에 출판됐는지랑 같은 것이다.
    • 위키피디아에선, 우리는 기사들을 512 길이의 덩어리로 나눈다.
    • 우리는 1000개의 조각들을 생성하고, 같은 기사 혹은 다른 언어의 동등한 기사의 모든 chunks들은 같은 조각이다. (그렇지않으면 chunks은 랜덤으로 나뉨)
    • 조각들은 50-250k 엔트리들을 가진다.
  • Indexing 
    • 우리가 (4)의 relevance model을 통하여 backpropagate할 때, 배치의 구성 그자체는 고유적으로 미분이 불가능하다.
    • 편리성을 위해, 우리는 가장 가까운 neighbour search을 offline으로 수행한다.
    • 매 10k의 모델이 업데이트될 때마다, 우리는 문서들의 조각들의 세트를 샘플링한다.
    • 각 조각에서, 우리는 f(x, z)을 현재 relevance 모델을 사용해서 taget와 evidence documents 쌍에서 계산한다.
  • Thresholding 
    • shard의 모든 쌍에서 가장 유사한 상위 k 개의 문서 쌍을 취하여 충분히 관련이있는 문서를 선택합니다.
    • 일부 대상에는 충분히 관련성이있는 증거 문서가 없을 수 있으며 업데이트된 relevance 모델로 shard가 다시 인덱싱 될 때까지 사용되지 않습니다.
  • Batching (번역)
    • 우리는 각 target 을 재구성하는 데 사용 가능한 정보를 최대화하기 위해 관련된 target 및 evidence 문서의 클러스터를 포함하는 배치를 구성하는 것을 목표로합니다.
    • 임계값 설정 단계의 출력은 증거와 대상 문서 사이에 edge을 가지는 이분(bipartite) 그래프입니다.
    • 배치는 하위 그래프이며 하위 그래프의 모든 모서리 가중치 합계를 최대화하는 하위 그래프를 찾기 위해 작은 로컬 검색을 수행합니다.
    • 모델이 다국어 배치를 빌드하도록 장려하기 위해 증거와 대상이 다른 언어로되어있는 edge에 가중치 100이 부여되고 다른 edge에는 가중치가 부여됩니다.
    • 배치를 생성하기 위해 최소 하나의 증거 문서에 대한 edge를 사용하여 시드 증거 문서 xi를 반복합니다.
    • 그런 다음 GPU 메모리에 들어갈 수있는 최대 토큰 수에 도달 할 때까지 edge 가중치의 합을 최대화하기 위해 배치에 증거와 대상 문서를 greedily하게 추가합니다.

3 Training

  • Architecture (생략)
  • Pre-training 
    • 사전 교육 중에 작업자는 평균 2 개의 evidence document와 2 개의 target 문서가 포함 된 하위 배치를 처리하고 작업자간에 기울기를 누적합니다.
    • CC-NEWS 말뭉치의 다국어 버전 [Liu et al., 2019]을 사용하여 처음에는 64 명의 작업자를 사용하여 450k 단계 (10k 워밍업 단계로 1e-04에서 0으로 학습률을 선형 어닐링)를 사용하여 훈련 한 다음 550k 단계 (2e-04에서 0으로 학습률 어닐링)로 2048 명의 작업자로 계속 교육합니다.
    • 이 모델을 MARGE-NEWS라고합니다.
    • 도메인 효과를 탐색하기 위해 Wikipedia 데이터에 대해 10 만 단계를 추가로 사전 훈련하고 학습률을 1e-04에서 0으로 어닐링하고 결과 모델을 MARGE로 참조합니다.
    • 10k 업데이트마다 인덱스를 다시 작성합니다.
    • 대상 문서 당 평균 4 개의 단일 언어 및 4 개의 교차 언어 링크를 사용하도록 검색 임계 값을 설정했습니다.
  • Data Pre-processing 
    • 데이터 중복을 제거하고 FastText를 사용하여 언어를 식별합니다 [Joulin et al., 2016].
    • 부록에 요약 된 26 개 언어로 게시 된 문서를 선택합니다 (다운 스트림 작업에서의 보급률 기준). 
    • 문서를 512 개 길이의 청크로 나눕니다. 우리는 모든 청크를 증거 문서로 허용합니다.
    • 뉴스 도메인의 경우 각 문서의 첫 번째 청크 만 대상으로 사용할 수 있으며, 개발 과정에서 성능이 향상되었습니다.
    • 출력 언어를 제어하기 위해 첫 번째 디코더 입력으로 언어 식별자 토큰을 추가합니다.
  • Fine-tuning 
    • 미세 조정을 위해 Lewis et al.과 유사한 절차를 사용합니다. [2019a].
    • 번역 및 요약과 같은 생성 문제의 경우 작업 입력이 인코더에 입력되고 출력이 디코더에 의해 생성됩니다.
    • 분류 문제의 경우 작업 입력이 인코더와 디코더 모두에 공급되고 디코더의 최종 레이어 숨김 상태에서 표현이 사용됩니다.
    • 제로 샷 전송 실험의 경우 단어 임베딩과 처음 4 개의 디코더 레이어를 고정합니다.

4 Experiments

  • 다국어 시퀀스 대 시퀀스 모델 인 MARGE는 매우 광범위한 작업에 적용 할 수 있습니다. 
  • 우리는 사전 교육과 가장 직접적인 관련이 있기 때문에 검색, 문서 이해 및 문서 생성 요소가있는 다국어 작업에 중점을 둡니다. 
  • 표 1에는 관련 모델 통계와 함께 사용 가능한 가장 강력한 다국어 사전 학습 모델이 나열되어 있습니다. 
  • 이러한 모델에 대해 발표 된 수치와 성능을 비교합니다.

4.1 Cross-lingual Sentence Retrieval

4.2 Document-Level Machine Translation

  • 사전 훈련 중에 모델은 인스턴스가 단일 언어 인 mBERT, XLM 및 mBART와 달리 대상과 다른 언어로 증거 문서를 검색 할 수 있습니다. 
  • 이 사전 교육 방식이 번역을 얼마나 잘 학습하는지 살펴 봅니다. 
  • 문서 수준의 번역 작업에 집중하고 문서 수준의 BLEU 점수를보고합니다.
  • Follow Liu et al. [2020], 훈련 및 생성을 위해 문서를 512 개의 토큰 청크로 분할 한 다음 동일한 문서의 청크를 연결합니다.

4.3 Summarization

4.4 Paraphrasing

  • 사전 훈련이 PAWS-X 패러 프레이즈 감지 데이터 세트에서 패러 프레이징을 얼마나 잘 학습하는지 측정합니다 [Yang et al., 2019a]. 
  • 작업은 두 문장이 의역인지 여부를 결정하는 것입니다. 예제는 높은 어휘 중복을 갖도록 적대적으로 구성되었습니다. 
  • 모델은 영어 교육을 받았으며 다른 언어로의 제로 샷 전송을 테스트합니다. MARGE는 새로운 최첨단 기술을 선보입니다 (표 6b). 

4.5 Question Answering

  • 질문 답변은 여러 언어로 쉽게 제시되는 또 다른 문서 수준의 추론 작업을 제공합니다. MLQA 데이터 세트 [Lewis et al., 2019b]를 사용합니다. 
  • 여기에서 모델은 English SQuAD 데이터 세트 [Rajpurkar et al., 2016]에서 학습 된 다음 다른 언어로 테스트됩니다.
  • 표 6a의 결과는 MARGE가 XLM-R로 경쟁 성능을 달성하여 중국의 최신 기술을 설정하고 다른 모델보다 큰 차이가 있음을 보여줍니다. 

5 Analysis (번역)

  • What does the reconstruction model learn? 
    • 재구성 모델이 학습 한 내용에 대한 직관을 구축하기 위해 동일한 주제에 대해 서로 다른 언어의 입력에 대한 모델 출력을 조사합니다.
    • 고정된 주제의 경우에도 모델 출력은 입력에 따라 크게 달라져 단순히 텍스트를 암기하는 것이 아님을 보여줍니다.
    • 출력의 거의 모든 사실은 입력에 의해 뒷받침되며 환각은 거의 없습니다. 
    • 사전 훈련은 모델이 매개 변수에있는 사실을 기억하는 대신 소스에서 정보를 번역하고 의역하도록 가르쳤습니다.
    • 그러나 출력은 리터럴 번역이 아닙니다. 특히 소스의 일부 중요한 사실이 출력에 표현되지 않습니다.
    • 모델은 리터럴 번역에 대해 훈련되지 않았기 때문에 출력이 입력에 너무 가깝게 정렬되어 있다는 것이 놀랍습니다.
    • 번역은 의역에 대한 다양한 배포 방식을 나타낼 수 있습니다.
  • What does the retrieval model learn? 
    • 그림 2는 검색 모델의 통계를 보여줍니다.
    • 언어 간의 차이는 말뭉치에 포함 된 언어의 빈도와 관련 언어가 서로 어떻게 관련되어 있는지 등 많은 요인에 기인합니다.
    • 사전 교육은 또한 피드백 루프를 도입합니다. 
    • 재구성 모델이 두 언어간에 번역 할 수없는 경우 이러한 언어로 된 문서가 서로 덜 관련성이 있다는 검색 모델을 교육 할 수 있기 때문입니다.
    • 모든 언어는 자신의 언어 (대각선으로 표시) 내에서 가장 높은 비율의 문서를 검색하지만, 그렇지 않으면 검색된 문서가 여러 다른 언어에 배포되는 경향이 있습니다.
    • 불가리아어와 러시아어 또는 중국어와 일본어와 같이 지리적 또는 언어 적으로 관련된 언어 간에는 더 가까운 유사성이있는 경향이 있습니다.
    • 일부 언어의 경우 모델이 다른 언어 (특히 인도이란 언어)와 포함 된 언어 계열의 유일한 예인 문서 (예 : 텔루구 어 및 태국어)로 된 많은 문서를 검색하지 못합니다.
    • 이러한 경우 사전 교육은 mBART 및 mBERT에서와 같이 각 언어에 대한 독립적 인 업데이트로 축소됩니다.
  • Discussion 
    • 전반적으로 MARGE는 이전의 사전 학습 된 모델보다 더 넓은 범위의 작업에서 강력한 성능을 보여 주며 여러 언어로 된 차별적이고 생성적인 작업에 효과적입니다.
    • 결과는 훨씬 더 높은 사전 훈련 리소스로 훈련 된 덜 일반적인 모델, 심지어 XLM-R에서도 경쟁력이 있습니다.
    • 사전 훈련 작업은 마스킹 된 언어 모델링보다 다운 스트림 작업과 더 밀접하게 관련되어 있으므로 사전 훈련 된 모델이 번역에 대해 35.8의 BLEU 점수를 달성 할 수 있습니다.
    • MARGE는 또한 MLM을 넘어 알려진 효과적인 사전 교육 작업의 범위를 확장하여 사전 교육 목표에 대한 추가 탐색 및 이해로 이어질 것으로 기대합니다.
    • 그러나 향후 작업에서 해결해야 할 몇 가지 제한 사항이 있습니다.
    • 간단한 메타 데이터를 사용하여 유사성 검색을 제한하고 효율성과 정확성을 개선 할 수있는 뉴스 및 Wikipedia에 대해 사전 교육을 받았습니다.
    • 도메인을 넓히려면 approximate nearest neighbor search이 필요할 수 있습니다 [Johnson et al., 2019].
    • 검색 모델을 학습하려면 배치 크기가 1보다 커야하므로 훨씬 더 큰 모델을 학습하려면 모델 병렬 학습이 필요합니다.

6 Related Work 

7 Conclusion

  • 우리는 NLU와 NLG를 위한 pre-training 모델들에 대한 새로운 접근법을 소개한다.
    • 검색된 문서들을 original로 재구성하는 것을 사용한다.
  • MARGE는 많은 언어들에서 분류 및 생성 테스크들에서 fine-tuning을 하든 안하든 강력한 성능을 보여준다.
  • 이러한 결과들은 MARGE가 masked LM 대신에 사용가능하고 pre-trained models이 fine-tuning없거나 적은 fine-tuning만으로 어떠한 테스크에서 잘 수행될 수 있는 스텝을 제공한다.
  • Future work should scale MARGE to more domains and languages.

Reference

댓글