◼️ Comment

패러프레이징에 관심이 있던 와중, 제목이 심플하고 아이디어스러워 보여 읽어보았다.
완벽히 세부적인 내용까지는 이해못했지만 ㅠㅠ 핵심은 다음과 같다.

그림1처럼 패러프레이징으로 LM을 pre-training 하겠다. (즉 unlabled 코퍼스 뭉치들로 LM 모델을 만들겠다는 것)
즉 문서 x가 있고 이와 같은 shards(조각)에 있는 문서 z로 보냈다가 오는 것이다. (z가 뭔지는 밑에서 설명)
마치 번역에서 back-translation과 비슷한 느낌이나, 방식은 조금 다르다.
일단 z가 구성되있다고 생각하면, x와 z사이의 유사도 score을 계산한다.
이 점수와 z를 디코더의 입력으로 넣어줘서 x을 재구성하는 것이다.
논문에도 써 있듯이, 마치 denoising auto-encoder와 비슷하다고 한다.
유사도 점수는, 문서를 Transformer로 벡터화 시킨 후, cosine similarity로 계산한다.
디코더는 z들을 concat하여 벡터화 시킨 후, Transformer decoder에 통과시켜 x을 생성하는데, 이 때 attention score에 유사도 점수를 넣어서 계산하는 것이 일반 Transformer decoder와 다른 점이다.

여기서 살짝 이해가 안되는 것은 shards을 어떻게 구성하는가? 이다.

논문의 2.4에서는 그것을 설명하는데 간단히 보면
뉴스 같은데서는 같은 날 출판된 기사, 위키피다에서는 같은 기사를 512 길이로 잘라서 shards 후보로 가지는 것 같다.
그리고 유사도 점수를 계산하여 threshold을 넘어가는 것을 같은 shards로 묶는 것 같다.
여기서 유사도 점수를 계산하는 retrieved 모델은 사전에 학습된게 아니고 reconstruction 모델하고 같이 학습되는 식이다.
즉, shards는 학습되면서 변경되는 것이고 10k마다 샘플링을 해주는 것 같다.
또한 x와 z는 같은 언어가 아닐 수도 있어서 다국어 처리가 가능하게끔 한다.
~~위 내용중에 틀린 부분이 있을 수도 있음..~~

뭐 어찌되었든, 이렇게 학습하면 검색모델과 재구성모델 두 개가 생성된다.

이 둘을 이용하여 다양한 테스크에서 실험을 했더니 성능이 꽤 나온 것으로 보여진다.
다양한 어플리케이션에서 인퍼런스할 때, z 문서들을 어떻게 구성하는 과정이 안써있는데 학습할 때와 마찬가지로 같은 날에 출판된 뉴스기사나, 위키피디아에서 다른 위치에 있는 기사들이 z가 되는 것인가?
만약 입력 x를 맘대로 주어지면 z는 어떻게 구성해야하는지?
즉 어플리케이션에서 헷갈리는 부분이 있으나.. 위의 핵심이라도 일단 기억해두자

0 Abstarct

우리는 MARGE을 소개하고, 이는 pre-trained seq2seq 모델로 unsuperivsed multi-lingual multi-document 패러프레이징 objective으로 학습된다.
MARGE는 주로 쓰는 masked LM의 대안을 제시하고, 우리는 관련된 텍스트들의 (많은 언어들에서) 세트를 검색하면고 original을 생성하는 likelihood을 최대하는 조건으로 target text의 재구성을 self-supervise한다.
우리는 랜덤 초기화만 주어져도 retrieval과 reconstruction을 같이 학습하는 것이 가능함을 보여준다.
objective는 paraphrase, translation, multi-document 요약, information retrieval의 관점을 노이즈하게 캡쳐하고 여러 tasks에서 강력한 zero-shot 성능을 가능하게 한다.
예를 들어, 추가적인 task-specific training 없이, 우리는 document translation에서 BLEU scores 35.8까지 달성한다.
우리는 더욱이, fine-tuning이 다양한 언어에서 discriminative와 generative tasks에서 강력한 성능 달성을 달성하고, MARGE가 현재까지 가장 일반적으로 pre-training 방법임을 보여준다.

1 Introduction

masked language models (MLMs)의 변형들은 매우 효율적인 입력 텍스트의 부분에서 삭제하고 재구성함으로써 pre-training을 위한 self-supervision을 제공한다.
이 논문에서, 우리는 MLMs에 대한 첫 번째로 다른 pretraining 대안을 소개한다.

self-supervision은 대신에 많은 언어들에서 관련된 문서들의 paraphrase collections을 학습함으로써 제공된다.

더욱 구체적으로, 우리는 MARGE인 Multilingual Autoencoder that Retrieves and Generates을 소개한다.
우리는 MARGE을 많은 언어에서 관련된 텍스트 세트를 먼저 검색함으로써 target text을 self-supervising로 재구성하고나서 그들을 조건으로 original 생성의 likelihood을 최대화하도록 한다.
우리는 multi-source seq2seq 모델을 pre-train을 한다.

multi-source seq2seq 모델은 각 retrieved document을 분리해서 인코딩하고 target으로 디코딩한다.
이 모델은 가능한 최상의 재구성을 제공하기 위해 필요한 적절한 입력에서 콘텐츠를 함께 변환한다

retrieval 모델 scores은 가장 연관된 retrieved documents에 대한 cross attention을 편향하는데 사용되어, retrieval 모델이 reconstruction loss으로부터 함께 학습되게 한다.
우리의 접근법은 denoising auto-encoder의 새로운 type으로 볼 수 있다.

여기서 noise는 retireval step으로부터 오고, masking보다 더욱 다양하다.
retrieved documents은 아마도 target과 적은 lexical overlap이 거의 없고, 아마 같은 언어가 아닐 것이나 동일한 기본 정보와 소통할 것이다.

pre-training task은 paraphrasing을 강조하고 모델이 외워야하는 백과사전 지식의 양을 줄인다.
retrieved documents의 세트와 relevance scores은 입력을 재구성해야하는 auto-encoder 바틀낵이다.
MARGE는 최근 연구인 최종 작업 모델의 일부분으로써 검색하는 것을 배우는 것과 연관이 있다.

예를 들어, 문서의 evidence을 찾는것은 open domain question answering이다.

이것은 좀 더 챌린지한 검색 문제로 이끌고 (우리와 달리) pre-training phase을 분리한다.
전체적으로, 우리의 pre-trained 모델들은 전통적인 paraphrasing, translation, multi-document summarization, informatino retrieval 테스크들의 요소를 캡쳐한다.
이것은 효과적인 zero-shot learning을 가능하게한다.

no fine-tuning으로 우리는 문서 번역에서 BLEU scores을 35.8까지 달성하고 요약에서 cross-linugal transfer보다 더 강한 베이스라인을 달성한다.
fine-tuning이 거의 또는 전혀없이 모든 작업을 수행 할 수있는 pre-trained된 모델을 향한 단계를 제공합니다.

fine-tuning와 함께, 우리는 많은 언어들에서 분류 및 생성 테스크들의 범위에서 경쟁력있는 성능을 masked LMs으로 달성하여 MARGE가 현재까지 pre-training 방법중 가장 일반적으로 적용하게 만든다.

2 Model

2.1 Overview

pre-training 중간에, 모델에 대한 입력은 evidence documents $z_{1,...,M}$ 의 배치와 target documents $x_{1,...,N}$ 이다.
모델은 evidence documents을 조건으로 하여 targets의 likelihood을 최대화하도록 학습이되고, 각 taget에대한 각 evidence document의 relevance은 다음과 같다.

모델은 먼저 relevance score $f(x_i, z_j)$ 을 document $x_i$ 와 $z_j$ 쌍 사이에서 계산한다.

각 문서를 embedding하고 그들 사이의 cosine 유사도를 구한다. (2.2절)

모델은 그리고나서 수정된 seq2seq 모델을 사용하여 $f(x_i, \cdot)$ 및 $z_{1,...,M}$ 을 조건으로 각 $x_i$ 을 재구성하는 likelihood을 계산한다.
유사도 점수는 모델이 좀 더 관련있는 evidence documents을 attend하도록 한다.
재구성 loss을 backpropagating은 그래서 seq2seq model과 relevance model을 둘 다 향상 시킨다.
우리는 batches을 구성해서 검색을 위한 relevance model을 사용해서 evidence documents가 targets과 관련있게 한다. (§2.4)

이 모델을 학습하는 것은 치킨-달걀 문제이다. (닭이 먼저냐 달걀이 먼저냐)
만약 배치들이 관련있는 evidence documents을 포함하지 않는다면 reconstruction와 relevance 모델들은 효과적으로 업데이트될 수 없으나, 배치 구성은 relevance 모델에 의존한다.
그러나, 우리는 실제로 모델이 랜덤 초기화로부터 학습이 가능하고, 이는 효과적으로 각 단어에 대한 랜덤 피쳐의 hashing의 타입을 제공한다.

2.2 Relevance Scores

문서 쌍에서 relevance scores $f(x_i, z_j)$ 을 배우기 위해서, 우리는 document encoder g가 토큰 리스트를 고정된 크기의 representation로 매핑하도록 학습한다.
우리는 동일한 encoder로 target과 evidence document에 적용하고 그들의 representations 사이의 cosine 유사도를 구한다.
이 함수는 reconstruction model (2.3절)에 사용되며, reconstruction loss로 학습이 된다.
또한 관련된 문서들의 배치들 구성하는데 사용된다. (2.4절)
target과 evidence documents 둘 다에 동일한 인코더를 사용하는 것은 많은 어휘가 겹치는 것이 비슷한 representations으로 투영되게 하기 때문에 심지어 랜덤 모델들이 의미있는 similarity 함수를 계산하게 한다.
이것은 초기화에서 중요하다.
우리는 4-layer Transformer의 마지막에서 첫 번째 토큰의 representation을 취함으로써 documents을 인코딩한다.
우리는 reconstruction model 인코더의 처음 4개 layers와 파라미터를 공유하고, 이는 computation을 줄이고 multi-task learning이 가능하게 한다.

2.3 Reconstruction Model

evidence 문서들 $z_{1,...,M}$ 의 세트와 similarity scores $f(x_i, z_j)$ 가 주어졌을 때, reconstruction model은 target 문서 $x_i$ 의 likelihood을 계산한다.
이것은 auto-encoder loss을 제공하고 여기서 document $x_i$ 의 reconstruction은 $x_i$ 를 간접적 조건으로 하나 검색된 documents와 relevance scores가 중간 바틀낵을 제공한다.
먼저, 입력 documents들은 개별적으로 bidirectional Transformer으로 인코딩되고 embeddings을 concatenated된다.
similarity score은 decoder에서 encoder로 cross-attention을 편향하도록 사용되어서 decoder가 좀 더 연관있는 evidence documents을 attention할 것이다.
좀 더 관련있는 evidence documents을 사용하는 것은 reconstructing $x_i$ 의 likelihood을 향상시킬 것이고 (2)에서 gradient descent은 similarity scores의 퀄리티를 향상시킬 것이다.
Standard Transformer seq2seq 모델들은 target 문서 $x_i$ 와 evidence document $z_j$ 의 모든 요소들 사이에서 cross-attention 확률의 matirx을 계산한다

$Q^{lh}$ 와 $K^{lh}$ 은 layer l와 head h에서 query와 key representation을 계산하고 $softmax_{z_j}$ 은 $z_j$ 에 대한 요소들에서 softmax normalised한 것이다.
위의 표기가 즉 일반적인 softmax이고 softmax의 밑의 표기가 그걸로 softmax을 취한 것으로 여기선 열 zj에서 각각 취했다는 것인 듯.

우리는 대신에 evidence documents $z_{1,...,M}$ 의 세트에서 cross attention을 게산하여 attention scores을 관련있는 document score로 편향시킨다:

where $\beta$ is a trainable scalar parameter that weights the importance of the document similarity score.
수식만 봤을 때 K( $z_{1,...,M}$ )은 $z_{1,...,M}$ 을 concat하여 representation을 구한 것으로 보인다.

Guu은 관련된 접근법으로 target x의 likelihood가 우리의 latent documetns의 소외시킴으로써 계산한다: $z: p(x) = \sum_j p(x|z_j)p(z_j)$
우리의 attention 같은 메커니즘은

(1) 좀 더 비싸다 왜냐하면 한 timestep에서 한 문서의 토큰에 완전히 attention을 할 수 있고 다른 timestep에서는 다른 document에 토큰에 대해서 attention을 하기 때문이다.
(2) 좀 더 효율적이다 왜냐하면 p(x|z)은 각 $z_j$ 에 분리되어서 계산되지 않기 때문이다.

However, our method does not allow attention from z to x.
정리하면 다음과 같은 과정이다.

문서를 그냥 문장이라고 생각하자. (실제로는 문장)
x문장: "내 이름은 홍길동이야"(한국어)
z문장들: "I am Kim"(영어), "Yo soy lee"(스페인어), ...
즉 x문장과 z문장들을 이용해서 x을 재구성하는 denoising auto-encoder 형태다.
일단 x와 각 z와의 유사도를 계산한다 (cosine)
그리고 이 유사도 점수와 z를 decoder에 넣어서 x을 재구성한다.
유사도 점수를 이용하기 위해 디코더로 재구성할 때, 일반 Transformer와 달리, 식(4)처럼 softamx에 유사도 점수를 더해서 같이 계산한다.
이렇게 학습하면 유사도 점수를 구하는 모델과 seq2seq 모델 둘 다 향상이 된다고 한다.
~~여기서 궁금한건 z문장들의 세트 후보들은 어떻게 선택하는지??~~
~~유사도 점수가 높은 애들 몇 개를 뽑아서 하는 것인가?~~
--> 2.4섹션

2.4 Batch Construction

이 섹션에 자세히 설명 된대로 대상 문서 $x_{1,...,N}$ 을 재구성하는 데 유용한 정보를 제공하는 evidence 문서 세트 $z_{1,...,M}$ 을 생성하기 위해 배치가 구성됩니다.
전체적으로, 우리는 데이터를 관련된 문서의 조각들로 나눈다.
주기적으로 relevance 모델을 사용하여 각 조각 내 문서 쌍 간의 유사성을 계산하고 가장 강력한 연결을 유지하기 위해 threshold 을 적용합니다.
마지막 배치들은 evidence와 target documents 사이의 연결성을 최대화하도록 구성된다.
Document similarity

우리는 document similarity을 2.2절과 똑같은 방법으로 계산한다.
모든 문서들 x는 vector g(x) ∈ R^d로 인코딩되고나서, 모든 문서들사이의 pair-wise 유사도는 single matrix 곱으로 계산된다.

Data Sharding

우리는 간단한 heuristic 제약들을 사용해서 문서들을 관련된 shards(조각)로 나누고 검색의 accuracy와 효율성 둘 다를 향상시킨다.
특히, 뉴스 텍스트에서 동일한 조각에 있는 문서들은 그들이 같은 날에 출판됐는지랑 같은 것이다.
위키피디아에선, 우리는 기사들을 512 길이의 덩어리로 나눈다.
우리는 1000개의 조각들을 생성하고, 같은 기사 혹은 다른 언어의 동등한 기사의 모든 chunks들은 같은 조각이다. (그렇지않으면 chunks은 랜덤으로 나뉨)
조각들은 50-250k 엔트리들을 가진다.

Indexing

우리가 (4)의 relevance model을 통하여 backpropagate할 때, 배치의 구성 그자체는 고유적으로 미분이 불가능하다.
편리성을 위해, 우리는 가장 가까운 neighbour search을 offline으로 수행한다.
매 10k의 모델이 업데이트될 때마다, 우리는 문서들의 조각들의 세트를 샘플링한다.
각 조각에서, 우리는 f(x, z)을 현재 relevance 모델을 사용해서 taget와 evidence documents 쌍에서 계산한다.

Thresholding

shard의 모든 쌍에서 가장 유사한 상위 k 개의 문서 쌍을 취하여 충분히 관련이있는 문서를 선택합니다.
일부 대상에는 충분히 관련성이있는 증거 문서가 없을 수 있으며 업데이트된 relevance 모델로 shard가 다시 인덱싱 될 때까지 사용되지 않습니다.

Batching (번역)

우리는 각 target 을 재구성하는 데 사용 가능한 정보를 최대화하기 위해 관련된 target 및 evidence 문서의 클러스터를 포함하는 배치를 구성하는 것을 목표로합니다.
임계값 설정 단계의 출력은 증거와 대상 문서 사이에 edge을 가지는 이분(bipartite) 그래프입니다.
배치는 하위 그래프이며 하위 그래프의 모든 모서리 가중치 합계를 최대화하는 하위 그래프를 찾기 위해 작은 로컬 검색을 수행합니다.
모델이 다국어 배치를 빌드하도록 장려하기 위해 증거와 대상이 다른 언어로되어있는 edge에 가중치 100이 부여되고 다른 edge에는 가중치가 부여됩니다.
배치를 생성하기 위해 최소 하나의 증거 문서에 대한 edge를 사용하여 시드 증거 문서 xi를 반복합니다.
그런 다음 GPU 메모리에 들어갈 수있는 최대 토큰 수에 도달 할 때까지 edge 가중치의 합을 최대화하기 위해 배치에 증거와 대상 문서를 greedily하게 추가합니다.

3 Training

Architecture (생략)
Pre-training

사전 교육 중에 작업자는 평균 2 개의 evidence document와 2 개의 target 문서가 포함 된 하위 배치를 처리하고 작업자간에 기울기를 누적합니다.
CC-NEWS 말뭉치의 다국어 버전 [Liu et al., 2019]을 사용하여 처음에는 64 명의 작업자를 사용하여 450k 단계 (10k 워밍업 단계로 1e-04에서 0으로 학습률을 선형 어닐링)를 사용하여 훈련 한 다음 550k 단계 (2e-04에서 0으로 학습률 어닐링)로 2048 명의 작업자로 계속 교육합니다.
이 모델을 MARGE-NEWS라고합니다.
도메인 효과를 탐색하기 위해 Wikipedia 데이터에 대해 10 만 단계를 추가로 사전 훈련하고 학습률을 1e-04에서 0으로 어닐링하고 결과 모델을 MARGE로 참조합니다.
10k 업데이트마다 인덱스를 다시 작성합니다.
대상 문서 당 평균 4 개의 단일 언어 및 4 개의 교차 언어 링크를 사용하도록 검색 임계 값을 설정했습니다.

Data Pre-processing

데이터 중복을 제거하고 FastText를 사용하여 언어를 식별합니다 [Joulin et al., 2016].
부록에 요약 된 26 개 언어로 게시 된 문서를 선택합니다 (다운 스트림 작업에서의 보급률 기준).
문서를 512 개 길이의 청크로 나눕니다. 우리는 모든 청크를 증거 문서로 허용합니다.
뉴스 도메인의 경우 각 문서의 첫 번째 청크 만 대상으로 사용할 수 있으며, 개발 과정에서 성능이 향상되었습니다.
출력 언어를 제어하기 위해 첫 번째 디코더 입력으로 언어 식별자 토큰을 추가합니다.

Fine-tuning

미세 조정을 위해 Lewis et al.과 유사한 절차를 사용합니다. [2019a].
번역 및 요약과 같은 생성 문제의 경우 작업 입력이 인코더에 입력되고 출력이 디코더에 의해 생성됩니다.
분류 문제의 경우 작업 입력이 인코더와 디코더 모두에 공급되고 디코더의 최종 레이어 숨김 상태에서 표현이 사용됩니다.
제로 샷 전송 실험의 경우 단어 임베딩과 처음 4 개의 디코더 레이어를 고정합니다.

4 Experiments

다국어 시퀀스 대 시퀀스 모델 인 MARGE는 매우 광범위한 작업에 적용 할 수 있습니다.
우리는 사전 교육과 가장 직접적인 관련이 있기 때문에 검색, 문서 이해 및 문서 생성 요소가있는 다국어 작업에 중점을 둡니다.
표 1에는 관련 모델 통계와 함께 사용 가능한 가장 강력한 다국어 사전 학습 모델이 나열되어 있습니다.
이러한 모델에 대해 발표 된 수치와 성능을 비교합니다.

4.1 Cross-lingual Sentence Retrieval

4.2 Document-Level Machine Translation

사전 훈련 중에 모델은 인스턴스가 단일 언어 인 mBERT, XLM 및 mBART와 달리 대상과 다른 언어로 증거 문서를 검색 할 수 있습니다.
이 사전 교육 방식이 번역을 얼마나 잘 학습하는지 살펴 봅니다.
문서 수준의 번역 작업에 집중하고 문서 수준의 BLEU 점수를보고합니다.
Follow Liu et al. [2020], 훈련 및 생성을 위해 문서를 512 개의 토큰 청크로 분할 한 다음 동일한 문서의 청크를 연결합니다.

4.3 Summarization

4.4 Paraphrasing

사전 훈련이 PAWS-X 패러 프레이즈 감지 데이터 세트에서 패러 프레이징을 얼마나 잘 학습하는지 측정합니다 [Yang et al., 2019a].
작업은 두 문장이 의역인지 여부를 결정하는 것입니다. 예제는 높은 어휘 중복을 갖도록 적대적으로 구성되었습니다.
모델은 영어 교육을 받았으며 다른 언어로의 제로 샷 전송을 테스트합니다. MARGE는 새로운 최첨단 기술을 선보입니다 (표 6b).

4.5 Question Answering

질문 답변은 여러 언어로 쉽게 제시되는 또 다른 문서 수준의 추론 작업을 제공합니다. MLQA 데이터 세트 [Lewis et al., 2019b]를 사용합니다.
여기에서 모델은 English SQuAD 데이터 세트 [Rajpurkar et al., 2016]에서 학습 된 다음 다른 언어로 테스트됩니다.
표 6a의 결과는 MARGE가 XLM-R로 경쟁 성능을 달성하여 중국의 최신 기술을 설정하고 다른 모델보다 큰 차이가 있음을 보여줍니다.

5 Analysis (번역)

What does the reconstruction model learn?

재구성 모델이 학습 한 내용에 대한 직관을 구축하기 위해 동일한 주제에 대해 서로 다른 언어의 입력에 대한 모델 출력을 조사합니다.
고정된 주제의 경우에도 모델 출력은 입력에 따라 크게 달라져 단순히 텍스트를 암기하는 것이 아님을 보여줍니다.
출력의 거의 모든 사실은 입력에 의해 뒷받침되며 환각은 거의 없습니다.
사전 훈련은 모델이 매개 변수에있는 사실을 기억하는 대신 소스에서 정보를 번역하고 의역하도록 가르쳤습니다.
그러나 출력은 리터럴 번역이 아닙니다. 특히 소스의 일부 중요한 사실이 출력에 표현되지 않습니다.
모델은 리터럴 번역에 대해 훈련되지 않았기 때문에 출력이 입력에 너무 가깝게 정렬되어 있다는 것이 놀랍습니다.
번역은 의역에 대한 다양한 배포 방식을 나타낼 수 있습니다.

What does the retrieval model learn?

그림 2는 검색 모델의 통계를 보여줍니다.
언어 간의 차이는 말뭉치에 포함 된 언어의 빈도와 관련 언어가 서로 어떻게 관련되어 있는지 등 많은 요인에 기인합니다.
사전 교육은 또한 피드백 루프를 도입합니다.
재구성 모델이 두 언어간에 번역 할 수없는 경우 이러한 언어로 된 문서가 서로 덜 관련성이 있다는 검색 모델을 교육 할 수 있기 때문입니다.
모든 언어는 자신의 언어 (대각선으로 표시) 내에서 가장 높은 비율의 문서를 검색하지만, 그렇지 않으면 검색된 문서가 여러 다른 언어에 배포되는 경향이 있습니다.
불가리아어와 러시아어 또는 중국어와 일본어와 같이 지리적 또는 언어 적으로 관련된 언어 간에는 더 가까운 유사성이있는 경향이 있습니다.
일부 언어의 경우 모델이 다른 언어 (특히 인도이란 언어)와 포함 된 언어 계열의 유일한 예인 문서 (예 : 텔루구 어 및 태국어)로 된 많은 문서를 검색하지 못합니다.
이러한 경우 사전 교육은 mBART 및 mBERT에서와 같이 각 언어에 대한 독립적 인 업데이트로 축소됩니다.

Discussion

전반적으로 MARGE는 이전의 사전 학습 된 모델보다 더 넓은 범위의 작업에서 강력한 성능을 보여 주며 여러 언어로 된 차별적이고 생성적인 작업에 효과적입니다.
결과는 훨씬 더 높은 사전 훈련 리소스로 훈련 된 덜 일반적인 모델, 심지어 XLM-R에서도 경쟁력이 있습니다.
사전 훈련 작업은 마스킹 된 언어 모델링보다 다운 스트림 작업과 더 밀접하게 관련되어 있으므로 사전 훈련 된 모델이 번역에 대해 35.8의 BLEU 점수를 달성 할 수 있습니다.
MARGE는 또한 MLM을 넘어 알려진 효과적인 사전 교육 작업의 범위를 확장하여 사전 교육 목표에 대한 추가 탐색 및 이해로 이어질 것으로 기대합니다.
그러나 향후 작업에서 해결해야 할 몇 가지 제한 사항이 있습니다.
간단한 메타 데이터를 사용하여 유사성 검색을 제한하고 효율성과 정확성을 개선 할 수있는 뉴스 및 Wikipedia에 대해 사전 교육을 받았습니다.
도메인을 넓히려면 approximate nearest neighbor search이 필요할 수 있습니다 [Johnson et al., 2019].
검색 모델을 학습하려면 배치 크기가 1보다 커야하므로 훨씬 더 큰 모델을 학습하려면 모델 병렬 학습이 필요합니다.

6 Related Work

7 Conclusion

우리는 NLU와 NLG를 위한 pre-training 모델들에 대한 새로운 접근법을 소개한다.

검색된 문서들을 original로 재구성하는 것을 사용한다.

MARGE는 많은 언어들에서 분류 및 생성 테스크들에서 fine-tuning을 하든 안하든 강력한 성능을 보여준다.
이러한 결과들은 MARGE가 masked LM 대신에 사용가능하고 pre-trained models이 fine-tuning없거나 적은 fine-tuning만으로 어떠한 테스크에서 잘 수행될 수 있는 스텝을 제공한다.
Future work should scale MARGE to more domains and languages.

Reference

https://papers.nips.cc/paper/2020/file/d6f1dd034aabde7657e6680444ceff62-Paper.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-102, Pre-training via Paraphrasing (2020-Neurips)

◼️ Comment

0 Abstarct

1 Introduction

2 Model

2.1 Overview

2.2 Relevance Scores

2.3 Reconstruction Model

2.4 Batch Construction

3 Training

4 Experiments

4.1 Cross-lingual Sentence Retrieval

4.2 Document-Level Machine Translation

4.3 Summarization

4.4 Paraphrasing

4.5 Question Answering

5 Analysis (번역)

6 Related Work

7 Conclusion

댓글

댓글 쓰기