◼️ Comment

이 논문은 NL-104에 이어, parallel 코퍼스 없이, unsupervised paraphrase하는 것이다.
근데 NL-104와 또 다른 점은, 아예 아무런 학습없이 pre-trained LM만 가지고 paraphrase을 할 수 있다는 것이다.

물론 모든 pre-trained LM은 아니고, BART로 가능하다는 것이다.
BART가 아니여도 encoder-decoder 식의 pre-trained LM이면 될 듯하고, 이것을 수행하기위해 Dynamic Blocking을 제시한다.
GPT-2와 같은 모델은 task-adaptation을 해줘야한다.

사실 가장 큰 컨트리뷰션으로 보이는 것은 Dynamic Blocking이다.

이것은 생성할 때, 원본 텍스트를 이용해 제한을 주는 것이다.
예) 원본: "나는 사과 나무를 좋아한다."

생성: "사과" 에서 나무를 생성해버리면 "사과 나무"가 중복되니까 "나무"말고 다른 것을 생성하게끔하는 것이다.
생성예시: "사과 농장을 나는 좋아한다." 이렇게 한다는 것이다.

즉, 연속되서 중복된 것을 생성하지 못하게 막는다는 것이다.
항상 100% 막는 것은 아니고, p라는 threshold 개념을 줘서 p확률보다 낮은 토큰은 block하지 않는 것이다.
또한 모든 단어들이 blocking 대상이 되는 것은 아니다.
1) 영어안의 closed classes

prononuns(대명사), determiners(한정사), conjunctions(접속사), prepositioins(전치사)

2) open-class word

nouns(명사), lexical verbs(어휘 동사), adjectives(형용사), adverbs(부사)를 포함한다.

위 두개에 해당하는 것들은 그냥 냅둔다고 한다. 왜냐하면 이를 block해서 바꾸기에 동의어가 적을 뿐더러, 문법상의 오류가 발생할 수 있기 때문이라고 한다.

Autoregressive model

BART에 Dynamic Blocking으로 바로 paraphrase을 할 수 있는 이유는, BART가 denoising encoder-decoder 스타일이기 때문이다.
즉 애초에 원본을 생성하도록 학습된 모델이고, 여기서 생성방식에 변형을 줘서 패러프레이징이 되는 것이다.
GPT-2와 같은 모델로 하려면 어떻게 해야할까? 추가적으로 BART에 학습을 해서 성능을 높이려면 어떤 학습을 해야할까?
이 부분이 task-adaptation과 self-superivsion이다.

Task-adaptation

즉 GPT-2가 패러프레이징을 할 수 있도록 post-training을 하는 것이다.

꼭 GPT-2가 아니여도 BART에다 이어서 적용할 수도 있다

따라서 corrupted-->original 식으로 모델을 학습하는 것이다.
여기서 사용되는 데이터는 task에 맞는 데이터들만 사용하는 것이다. (QQP, ParaNMT와 같은)
추가로 여기서 어떻게 corrupted 문장을 만드는지는 안나와있다.

Self-supervisoin

사실 이 부분이 task-adaptation과 뭐가 다른거지? 라는 의문이 아직도 있다.
내가 이해한 것은 domain-adaptation 개념으로 학습 방식은 task-adaptation과 같으나 목적이 domain에 맞는 데이터를 쓴다는 것이다.
즉 같은 것이나, 도메인 데이터들로 post-training을 하는 것 같은..

추가 스킬

beam-search로 4개를 생성해서 ranking을 매기는데 BERTScore+Key information(rare words와 같은) IDF을 이용해서 랭킹을 매긴다고한다.

0 Abstract

우리는 Dynamic Blocking을 제안한다, 이는 decoding 알고리즘으로 unsupervised setting에서 large-scale pretrained autoregressive models이 (such as BART, T5, GPT-2 and XLNet) 높은 퀄리티를 가지는 paraphrases의 생성을 가능하게 한다.
alternative surface form을 얻기 위해, LM이 source sequence의 현재 token을 내보낼때마다, 우리는 모델이 next time step을 위해 연속적인 source token을 생성하지 못하게 막는다.
우리는 우리의 접근법이 벤치마크 데이터세트에서 이전의 unsuperivsed 접근법들에 비해 SoTA을 달성하고 강한 supervised, indomain models와 비슷한 결과를 보여준다.
우리는 self-BLEU와 BERTscore을 기반으로하는 새로운 automatice metirc을 제안하고 이는 모델이 입력을 따라 복사를 discourage할 뿐 아니라 distributed representations을 기반으로하는 text similarity을 평가해서 exact keyword matching의 의존성을 피한다.
게다가, 우리는 우리의 모델이 어떠한 additional training 없이, 언어들에 걸쳐 일반화함을 증명한다.

1 Introduction

Paraphrase generation은 semantic meaning을 보존하면서, 다른 형태로 text 입력을 다시 작성하는 것이다.
이것은 다운스트림 NLP tasks의 다양한 어플리케이션을 가진다.

어플리케이션: 챗봇과 같은 user-facing 시스템들에서의 텍스트 생성의 다양화뿐만 아니라 text summarization, semantic parsing

paraphraser은 모델의 강건함을 평가하기위해 adversarial examples을 사용하는데 사용될 수 있다.

생성된 예제들은 또한 adversarial attakcs에 좀 더 강인해지기 위해서 neural networks을 학습하는데 활용될 수 있다.

QA 시스템들에서, paraphrasing questions은 더 많은 학습 데이터로 QA 모델들을 강화할뿐 아니라 더욱 knowledge 기반의 keywords에 매칭되도록 만든다.
그러나, paraphrases을 어노테이트하기는 비싸기 때문에, 오직 몇 개의 human-labeled datasets만의 결과들이 있다.
기존의 하나는 MRPC와 같은 small-scale이거나 전체가 questions으로 구성되어 있는 QQP와 같은 closed domain이다.

결과적으로, 이전의 연구들 또한 ParaNMT, Twitter와 같은 자동적으로 annotated datasets으로 탐구되었거나 MSCOCO, WikiAnswers와 같은 noisy dataset을 용도를 변경했다.

높은 퀄리티의 paraphrase data의 부족은 우리에게 transfer learning 접근법을 고려하게하고 이는 BART와 같이 large-scale pretrained autoregressive LMs을 활용한다.
paraphrase identification에서 BERT-score의 효율성은 pretrained language models은 이미 text similarity에서 광범위한 knowledge을 가지고 있음을 보여준다.
knowledge은 유사한 컨텍스트를 공유하는 텍스트 범위가 서로 의미 상 가깝게 유지된다는 사실에 기인 할 수 있습니다.

단어 임베딩이 전형적인 예입니다.
다른말로 paraphrasing 능력을 위해 LMs을 이용하는 것은 자연스럽게 context와 semantic similarity 사이의 강한 correlation을 활용하는 것이다.

실제로, 이전의 연구에서 supervised와 weakly supervised settings에서 GPT-2의 명시적인 knowledge을 활용하는 연구가 탐구되었다.
이 연구에서 우리는 또한 패러 프레이징을 위해 pretrained autoregressive models을 사용하지만 감독되지 않은 설정에서 사용합니다.
그러나, paraphrasing의 목적은, decoder-only 모델들은 오직 입력의 연속만 출력하지만, BART와 같은 seq2seq 모델들은 생성중에 입력 토큰들의 확률이 뾰족하기 때문에(greedy의미?) 입력을 복사하는 경향이 있다.

즉 GPT2 스타일은 입력의 연속이고, seq2seq는 입력을 복사하는 경향이 있다
이것은 그들이 greddy decoding, bream search 혹은 top-k/p sampling와 같은 유명한 decoding 알고리즘들을 어렵게 만든다.

이 연구에서, 우리는 dynamic blocking을 제안하는데, 이는 pretrained autoregressive language models을 자연스러운 paraphrasers으로 노력없이 변환시키는 decoding 알고리즘이다.

입력의 다른 surface 형태를 얻기 위해, 우리는 source sequence의 현재 토큰을 출력할 때마다, 이 알고리즘은 next generation step을 위해, 모델이 즉각적인 뒷부분을 생성하는 것을 막는다.

이 알고리즘은 각 생성 스텝에서 top candidate이 peaked probability에 대응함에도 불구하고 인퍼런스 동안 직관을 기반으로 한다.

distribution의 나머지는 (re-noramlized 할 때) 여전히 패러프레이징을 위한 적절한 풍부한 linguistic knowledge을 함유한다.
이것은 model distillation에서 soft targets을 사용하는 것과 유사하다.

우리는 이전의 모델들과 비교해서 Quora Question Pair (QQP) 데이터세트에 대한 SoTA을 달성한다.
ParaNMT dataset에서, 우리의 모델은 in-domian 모델들의 강한 supervised와 비교할만하며, 그래서 supervised 접근법들과 차이가 근소하다.
우리는 또한 새로운 automatic metric을 제안하여, 이는 BERT-score와 self-BLEU의 harmonic 평균이고 human evaluation와 높은 연관성을 가진다.
퀄리티 분석을 통해, 우리는 Dynamic Blocking이 높은 퀄리티 paraphrases을 생성하는데 이는 일관성있고 문장 구성이 다양하다.
우리는 또한 구체적인 예시를 보여줘서, 우리의 접근법이 어떠한 addtional training 없이, 독일어에서 paraphrases을 생성할 수 있음을 보여준다.

2 Model

이 섹션에서, 우리는 BART을 기본 LM으로 이용해서 Dynamic Blocking을 소개하고 나중에 self-supervised training으로 task 적용을 한다음, 다른 auto-regressive models로 어떻게 일반화할 수 있는지 소개한다.
BART의 pre-training objective는 auto-regressive decoder로 corrupted version으로부터 oiriginal document을 재구성하는 것이다.
이것은 모델이 source sequence에 attending하는 것과 context에 집중을 하여 일관성있는 출력을 생성하게 하게 능력을 부여한다.

2.1 Dynamic Blocking

Section 1에서 언급했듯이, greddy decoding 혹은 top-k/p sampling을 가진 BART는 항상 source sequence을 통하여 카피한다.
모델이 다른 형태의 form을 생성하게끔 강제하기 위해, 우리는 Dynamic Blocking (그림1) 으로 decoding 알고리즘으로 제안한다.
알고리즘 1에서 설명하듯이, 우리는 source sequence S = (S0, S1, ..., SM)을 tokens 리스트로하고, sequence G = (G0, G1, ..., GN )을 생성한다.
generation동안 모델은 몇 개의 $S_i$ 와 동일한 $G_j$ 을 생성한다고 가정한다. (여기서 i=j 일 필요는 없음)
이러한 blocking은 $G_{j+1} \neq S_{i+1}$ 을 부과해서 기존의 것과 다른 sequence을 생성하도록 강제한다.

$S_{i+1}$ 의 blocking은 one step만 오직 지속된다.
$G_{j+1}$ 이 생성되고 난 후, 우리는 다른 blocking을 수행한다. (iff $G_{j+1} \in S$ )

위 말을 알고리즘으로 표현했는데, G에서 decoding을 생각하자.
만약 Gi 토큰이 S에 있는 토큰 Si이라면, Gj+1은 Si+1와 무조건 다르게 하겠다는 것이다.
근데 이 방식이 항상 좋은건가? 싶긴 함.
이렇게 한 스텝 blocking하고 난 후는 blocking없이 가다가, 다시 S에 겹치는 토큰 발생하면 blocking이 수행되고 그런 식인 듯..

오직 one time step만 block하는 이유는 기존 시퀀스의 pure syntactic variation을 가능하게하고, 모든 토큰들은 유지되지만, 그들의 순서는 변경된다.
이것을 입증하기 위해, 우리들이 decoding 알고리즘으로 모델이 all time steps에서 source token을 생성하는 것을 완벽히 못하도록 고려해본다.

이 알고리즘을 static blocking이라 한다.
이렇게까지 또 다 막는게 좋은가? 매 번 다르게 blocking이 되는게 좋을 거 같은데..

우리가 "I like apples and oranges."을 "I like oranges and apples."로 패러프레이지하려고 가정해보자.

이것은 가능한 paraphrase이다.
그러나 만약 우리가 완벽히 "apples"을 all time steps에서 block한다면, 이것은 이러한 paraphrase에 도달하지 못할 것이다.

그러나, Dynamic Blocking을 사용한다면, "and"가 생성되고나서 이 단어가 잠시 block되었더라도 모델이 여전히 "apples" 단어를 나중에 생성할 수 있다.
그림 1에서 보여주듯이, Dynamic Blocking은 block dictionary을 구축해서 소스 시퀀스의 각 토큰이 즉각적인 후속과 매핑이 되도록 한다.
우리는 그리고나서, 각 entry에서 probability p을 가지는 dictionary으로부터 샘플링한다.

그림에서 Active로 표시된 부분인 듯
이 하이퍼파라미터는 우리가 소스 입력으로부터 패러프레이지를 얼마나 원하는지 컨트롤한다.

두 개의 극단적인 케이스

p=0.0일 때, 모델은 어떠한 토큰들도 block하지 않고 최대한 소스 시퀀스를 통하여 복사하려고 한다.
p=1.0일 때, 모델은 항상 즉각적으로 next token을 block하여 surface form이 완전히 달라진다.
즉 최대 확률 next token이 overlap 될 때 항상 block하는 것이 아니고, 적정 확률 p이하일 때 block하는 것이다. (즉 p가 높을 수록 block을 자주 한다는 것)

이 연구에서, 우리는 중간 지점인 p=0.5로 세팅하여 각 blocking action에 대해 candidate의 절반이 path을 취하게 한다. (즉 반만 block 한다.)
text 생성에 필요한 다양성을 달성하기 위해, 꽤 많은 이전의 연구들이 top-k/p sampling을 적용한다.

그러나, 이것은 보통 반복된 tokens을 포함하는 일관성없는 문장들을 결과로 한다.

이러한 단점을 피하기 위해, 우리는 여러 다른 block 사전들을 샘플링하면서 candidates 사이의 다양성을 보장하고 beam search을 활용해서 일관성을 보장한다.

각 샘플링된 block 사전들에서, 우리는 beam search로 4개의 candidates을 생성하고 top-ranked 2개를 유지한다.
beam search 만으로는 적절한 paraphrases을 생성할 수 없지만, Dynamic Blocking의 도움으로 생성 퀄리티를 크게 향상시킨다.
즉 dynamic block + beam search 4로 디코딩했다는 것
top-rank 2개를 유지하는 기준은 뭐지? --> 2.2

2.2 Re-ranking of candidates

(Li et al., 2019)와 유사하게, 우리는 source 입력에 대한 semantic similarity와 surface-form dissimilarity 둘 다 고려해서 생성된 candidates을 re-ranking한다.
semantic similarity을 위해, 우리는 BERTscore을 사용하고, 이는 candidate sentence와 각 토큰과 reference sentence의 각 토큰을 contextual embeddings을 사용해서 cosine similiarty을 계산한다.
key information을 (보통 연관된 rare words) paraphrase에서 유지하기 위해서, 우리는 BERTscore을 계산할 때, 내부기능인 IDF-reweighing을 각 토큰에 적용한다.
우리는 BookCorpus dataset을 사용해서 IDF weights을 얻는다.

2.3 Task-adaptation

BART와 그의 변형 (예. mBART)은 Dynamic Blocking을 바로 적용해서 paraphrases을 생성할 수 있고, 다른 pretrained autoregressive LM들은 (T5, GPT-2, XLNet과 같은) 여전히 task adaptation이 필요하다.
Gururangan et al. (2020)을 따라, 우리는 nonparallel sentences의 concatenation을 training set으로 한 target dataset에 대해 task-adaptive 학습을 적용한다.

Gururangan 참고: 링크
각 문장에서, 우리는 그것의 corrupted version을 source 입력으로 취하여 original sentence을 target으로 간주한다.
이전의 연구 (Devlin et al., 2018; Lewis et al., 2019)와 달리, 우리는 입력에 masks을 씌우는 식으로 corrupt하지 않고, 직접적으로 corrupted tokens을 삭제한다. (NL-104와 같은 방법, 여기서는 어떻게 corrupted??)

이것은 paraphraser이 어떠한 masks도 입력으로 포함하지 않기 때문에 denoising autoencoding models에서 pretrain-finetune discrepancy을 피하는 것이다.

2.4 Self-supervision

Dynamic Blocking와 re-ranking 전략들로부터 받는 regulairzations을 모델이 내재화하도록 돕기위해, 우리는 self-supervision을 인퍼런스동안 수행해서 모델이 그들에 덜 의존해서 더욱 다양한 candidates을 Dynamic Blocking을 생성하도록 한다.

인퍼런스동안 self-supervision을 수행한다는게 뭐지?

그래서, 우리의 메인 모델이 self-superivsion을 따라 domain adaptation의 파이프라인을 따른다.
각 finetuning 단계가 가져다주는 이점에 대한 추가 통찰력을 제공하기 위해 두 가지 ablation 연구 결과를 보여준다

1) domain adaptation only, and for 2) BART-like models self-supervision only.
task-adaptation은 task 데이터가지고 모델을 pretraining한다는 것이다 (내가 알고 있는 post-training 개념인 듯)

단지 여기서 GPT2도 BART처럼 corrupted->original을 학습한듯.

(self-supervision) domation adaptation은 task-adaptation과 마찬가지로 학습방식인데, 도메인 전체의 학습 데이터를 사용한다는 거 같음.

만약 task-adapted model로 pseudo 학습 예제를 생성한다면, 우리는 catastrophic forgetting을 피하기 위해, task-adapted 된 것보다 pretrained LM을 사용할 것이다.

3 Experimental Setup

3.1 Details of Dynamic Blocking

Block variation and inflections

초기 실험에서 우리는 단어를 blocking 할 때 (예 : "give") 모델이 일반적으로 대문자 ("Give") 또는 upper ( "GIVE") 버전을 생성하거나 그 변형인 (“gives”, “gave”, “giving”, “given”)을 생성한다.
두 경우 모두 인간의 관점에서 볼 때 일반적으로 좋은 의역이 아닙니다.

직관적으로 다른 단어를 선호합니다.
즉, 대문자 소문자 식의 생성은 좋은 패러프레이징이 아니다.

따라서 우리는 차단할 단어의 모든 굴절을 열거하기 위해 패턴 library를 사용합니다.
이것은 어미변화를 포함하는 대부분의 언어에서 사용할 수 있습니다.
또한 BERT의 이후 버전에서 도입 된 전체 단어 마스킹과 유사하게 하위 단어가 아닌 단어의 시작 부분 만 차단합니다.

Block closed-class words

우리는 또한 linguistic knowledge을 활용해서 closed-class words 혹은 functional words을 blockig을 피함으로써 paraphrases의 퀄리티를 향상시킨다.
영어안의 closed classes는 prononuns(대명사), determiners(한정사), conjunctions(접속사), prepositioins(전치사)등을 포함한다.
반대로, open-class word는 nouns(명사), lexical verbs(어휘 동사), adjectives(형용사), adverbs(부사)를 포함한다.
이 단어를 차단하는 데는 두 가지 이유가 있습니다.

1) 그들이 closed-class이기 때문에, 여기에는 사용가능한 동의어가 적다;
2) 이러한 단어를 blocking하면 에러가 잘 발생한다.

예를 들어, determiners의 변경은 (예. you -> I) 아마도 grammar errors을 유발할 거고, conjunctions의 수정은 (and --> or) 아마도 논리적 관계를 변경시킬 것이다.

3.2 Automatic evaluation

Dataset

우리는 Quora Question Pair (QQP) and the ParaNMT dataset에서 평가한다.
QQP는 140K paraphrase paris와 640K non-parallel 문장들을 가지고있다.

dev와 test sets의 사이즈는 각각 3K와 20K이다.

ParaNMT 데이터 셋 (Wieting and Gimpel, 2017)은 CzEng (Bojar et al., 2016) 데이터 셋에서 영어<->체코어로 문장을 back-translating하여 구성되었습니다.
평가를 위해, 우리는 Goyal and Durrett (2020)로부터 SOW-REAP의 테스터세트를 직접적으로 획득한다.
task-adaptive 학습을 위해, 우리는 ParaNMT-5M에서 500K non-parallel 문장들을 샘플링하고, self-supervised 학습에선 우리는 같은 코퍼스에서 20K을 샘플링한다.
테스트 예제에 대한 학습을 피하기 위해 SOW-REAP의 테스트 세트에서 오는 모든 문장을 필터링합니다.

Automatic metrics

패러 프레이징의 품질을 평가하기 위해 Li et al. (2019)는 QQP에 iBLEU (Sun and Zhou, 2012) 및 ROUGE (Lin, 2004)를보고하고 ParaNMT에 대해 BLEU (Papineni et al., 2002) 및 ROUGE (Lin, 2004)를보고합니다.
ParaNMT의 경우 BLEU는 먼저 Ground Truth로 최고의 문장 수준 점수를 달성 한 후보를 선택한 다음 이러한 모든 후보의 말뭉치 수준 BLEU를 계산하여 계산됩니다.
py-rouge를 사용하여 ROUGE 점수를 계산하고 HuggingFace의 Datasets 라이브러리를 사용하여 BLEU 점수를 계산합니다.

3.3 Human evaluation (번역)

Reproducing previous model

이전 작업과 비교하기 위해 QQP의 경우 Hegde와 Patil (2020)의 모델을 재현했으며, 이를 CorruptLM이라고합니다.

(NL-104) CorruptLM: Unsupervised paraphrase generation using pre-trained language models

이 모델은 작업 적응형 미세 조정 접근 방식 (섹션 2.3)과 유사합니다.
주요 차이점은 토큰의 고정 된 비율이 아닌 모든 불용어를 제거하여 입력을 손상 시킨다는 것입니다.
원본 논문은 불용어의 출처를 제공하지 않았기 때문에 숫자와 일치시키기 위해 The Corpus of Contemporary American English (Davies, 2010)에서 처음 252 개의 단어를 추출했습니다.
작업에 사용되는 GPT-2 대신 다양한 다운 스트림 작업에서 더 강력한 결과를 보여주는 BART를 사용합니다.
나머지 설정은 동일하게 유지됩니다.
모델이 원래 문장에 없었던 재구성 된 문장에서 새로운 단어를 갖도록 장려하기 위해 단어의 20 %가 syn-net을 사용하여 동의어로 무작위로 대체됩니다 (Miller, 1998) (추론 중에도 적용됨).
즉, 감독 신호는 대부분 syn-net의 주석에서 비롯되는 반면 모델은 동의어를 복사하는 방법을 학습합니다.
따라서 우리는 CorrputLM을 약하게 감독되는 모델로 취급합니다.
ParaNMT의 경우 Goyal과 Durrett (2020) 11에서 발표 한 SOW-REAP 모델을 사용하여 논문에보고 된 결과를 성공적으로 재현하고 표 3에도 나와 있습니다.

Evaluation setup

각 실험에 대해 우리는 최종 모델을 세 가지 모델 중 하나 (CorruptLM, 추론 중 동적 차단이없는 최종 모델, 근거 진실) 중 하나와 정면으로 비교합니다.

CorruptLM,
the final model without Dynamic Blocking during inference,
the ground-truth.

이전 모델과 비교할 때 우리는 어노 테이터에게 그들이 더 좋아하는 패러 프레이즈를 식별하도록 요청합니다.
후자는 self-BLEU로 확인하기 쉽기 때문에 의도적으로 semantic similarity과 diversity을 별도로 평가하도록 요청하지 않습니다.
자동 메트릭으로 평가하기 어려운 것은 의역의 전반적인 품질입니다.
각 실험에 대해 QQP의 테스트 세트에서 100 개의 예를 무작위로 샘플링합니다.

4 Results

4.1 Automatic evaluation (번역)

QQP

An interesting observation on previous results is that domain adapted supervised models perform worse than in-domain unsupervised models.
This shows that the performance gain for the unsupervised models mainly come from learning QQP’s data distribution.
Our approach also benefits from such training due to the task adaptation phase (Section 2.3).
테이블에서 흥미로운 관찰 중 하나는 작업 적응이 ROUGE를 크게 향상시키는 반면,자가지도 훈련은 BLEU 점수를 높인다는 것입니다.
However, we could not yet think of a reason to explain why self-supervised training enhances BLEU performance.
주의해야 할 또 다른 추세는 self-supervision을 따른 task adaptation을 수행 할 때 결과 성능이 작업 적응과 거의 동일하다는 것입니다.

이는 출력에 다양성을 가져 오는 동적 차단이 BLEU에 영향을 미치는 주요 요소임을 보여줍니다. 점수.

ParaNMT

표에서 우리는 CorruptLM이 QQP에서 적절한 성능을 달성하더라도 도메인 간 평가시 모델이 견고하지 않음을 알 수 있습니다.
반대로, 우리 모델은이 측면에서 훨씬 더 나은 성능을 발휘하여 도메인 내 최종 모델 (마지막 행)에 매우 가까운 결과를 얻습니다.
또한 ParaNMT의 데이터 배포를 학습하는 것이 QQP를 학습하여 자동 성능을 향상시키는 것보다 훨씬 덜 효과적이라는 것을 보여줍니다.

QQP와 달리 ParaNMT의 복사 입력 성능은 모든 모델 중에서 가장 낮습니다.
그러나 다른 모든 결과는 10 명의 후보를 기반으로하기 때문에 이는 완전히 공정한 비교가 아니며, 최종 점수 계산을 위해 문장 수준의 점수가 가장 높은 후보 만 유지됩니다.
반대로 복사 입력에는 후보가 하나만 있습니다.
따라서 독자는이 테이블을 소금 한 알로 보는 것이 좋습니다.

4.2 Human evaluation

표 2에서 우리는 추론 중에 동적 차단을 적용하면 실제로 자동 메트릭 성능이 저하된다는 것을 알았습니다.
이는 BLEU 및 ROUGE가 때때로 오해의 소지가 있음을 보여줍니다.
마지막 행은 감독되지 않은 모델 출력이 전체적으로 인간이 생성 한 출력만큼 강력하지 않음을 보여줍니다.
그러나 휴먼 애노 테이터가 모델 출력이 기준 52 %와 같거나 더 낫다고 생각한다는 점을 고려하면 여전히 모델의 성능을 경쟁력있는 것으로 해석 할 수 있습니다.

5 Analysis (번역)

5.1 Curse of BLEU on paraphrase evaluation

섹션 4에서는 BLEU 점수가 더 높은 모델이 인간 평가 점수가 더 낮다는 것을 알 수 있습니다.
BLEU가 인간의 인식과 잘 연관되지 않는 이유는 두 가지 반대 세력이 있기 때문입니다.

첫 번째 힘은 이름이 지정된 엔티티와 같은 중요한 정보를 그대로 유지하는 데서 비롯됩니다.
다른 한편으로, 두 번째 힘은 동일한 기본 의미를 표현하기 위해 다른 표현을 사용하는 데서 비롯됩니다.

모델이 더 좋을수록 BLEU가 더 나빠집니다.
두 가지 모두에 좋은 모델의 경우, 주요 엔터티 일치에 대한 BLEU의 이득과 다른 단어 사용에 대한 손실은 서로를 상쇄하므로 BLEU가 의역 품질을 충실하게 평가하지 못합니다.
반면에 BERT 점수는 여전히 첫 번째 힘을 장려하는 반면 두 번째 힘에 의해 많은 처벌을받지 않아 더 나은 측정 기준으로 자리 매김합니다.
그러나 입력을 parroting하는 것은 여전히 BERT 점수만을 속일 것입니다.
따라서 우리는 iBLEU와 마찬가지로 다양성을 장려하기 위해 self-BLEU도 포함합니다.

5.2 Generalization to other languages

우리는 BART가 독일어 말뭉치에 대해 명시 적으로 훈련되지 않았고 독일어를 위해 특별히 만들어진 어휘도 아니지만 모델이 이미 의역 할 수있는 기능을 갖추고 있다는 사실을 발견했습니다.
표 5에는 이러한 예와 Google Translator의 영어 번역이 나와 있습니다.
독일어로 된 모든 문장 (왼쪽 열)은 표면 형태가 다르지만 영어로 된 모든 번역 (오른쪽 열)은 비슷한 의미를 공유한다는 것을 알 수 있습니다.
우리가 아는 한 이것은 영어 이외의 언어로 paraphrase할 수있는 최초의 unsupervised model입니다.

6 Related Work

의역 생성은 텍스트 요약 (Cao et al., 2016), 시맨틱 파싱 (Berant and Liang, 2014) 및 질문 응답 (Yu et al., 2018)을 포함한 다운 스트림 NLP 작업에 여러 응용 프로그램이있는 오랜 문제였습니다.
의역 생성에 대한 초기 작업은 대부분 규칙 기반 또는 통계 기계 번역 시스템에 의존합니다 (McKeown, 1980; Meteer and Shaked, 1988; Bannard 및 CallisonBurch, 2005).
Supervised Approaches

신경 시퀀스 -tosequence 모델도이 작업을 해결하기 위해 활용되었습니다 (Prakash et al., 2016; Gupta et al., 2017; Li et al., 2017; See et al., 2017; Vaswani et al., 2017; Gupta et al., 2018).
더 다양한 의역을 생성하기 위해 구문 구조를 활용하는 몇 가지 이전 작업 (Iyyer et al., 2018; Chen et al., 2019; Li et al., 2019)이있었습니다.
가장 최근에 Goyal and Durrett (2020)은 신경 패러 프레이징 모델을 안내하기 위해 구문 구조를 통해 소스 문장을 재정렬 할 것을 제안한 반면 Qian et al. (2019)는 다양한 의역을 생성하기 위해 고유 한 생성기를 사용합니다.
의역 생성 작업에 대해 검색된 생성 방법도 조사되었습니다 (Kazemnejad et al., 2020; Lewis et al., 2020).
그러나 이러한 접근 방식의 대부분은 MRPC (Dolan and Brockett, 2005) 또는 도메인 별 QQP가 부족한 병렬 의역 데이터가 필요합니다.

Unsupervised Approaches

반면에 감독되지 않은 패러 프레이징은 NLP에서 다소 덜 탐구되고 더 어려운 문제입니다.
강력한 신경 기계 번역 (NMT) 모델을 사용하는 두 언어 간의 Round-trip translation (즉, back-translation)은 의역 생성에 널리 사용되는 비지도 접근 방식이되었습니다 (Yu et al., 2018).
Bowman et al. (2016)은 병렬 의역 말뭉치를 요구하지 않고 입력 문장의 재구성 로그 가능성에 대한 하한을 최대화하기위한 목적으로 VAE를 훈련합니다.
훈련된 VAE의 디코더에서 샘플링하면 디코더가 훈련 목표에 따라 입력 문장을 재구성하는 것을 목표로하므로 사실상 의역으로 간주 될 수있는 문장으로 이어집니다.
Liu et al. (2019)는 의역적 유사성, 표현 다양성 및 언어 유창성을 고려한 목적 함수와 관련하여 최적의 지점을 찾기 위해 문장 공간을 검색하는 최적화 문제로 의역 생성을 캐스팅합니다.
Siddique et al. (2020)은 심층 강화 학습을 활용하여 유사한 목표를 최적화합니다.

Transfer learning

감독 (Witteveen and Andrews, 2019) 또는 약한 감독 (Hegde and Patil, 2020) 환경에서 사전 훈련 된 언어 모델 (LM)을 활용하여 의역을 생성하는 작업은 거의 없습니다.
두 작품 모두 GPT-2를 백본 생성 모델로 병렬 또는 약하게 주석이 달린 데이터를 사용합니다.
우리가 아는 한, 우리는 LM으로 의역을 생성 할 수있는 비지도 모델을 최초로 제안했습니다.

7 Conclusion

이 연구에서, 우리는 Dynamic Blocking이라 부르는 decoding algorithm을 고안하고, 이는 supervised setting에서 pretrained autoregressive LM으로 paraphrases을 생성할 수 있다.
우리는 automatic metric과 human evaluations으로 우리의 모델이 벤치마크 데이터세트에서 SoTA 결과들을 달성함을 입증한다.
우리는 모델 분석을 통해 training 없이 다른 언어들에 대해 일반화가 가능함을 보여준다.
흥미로운 방향은 context-aware paraphrase generation인데, output 조건은 paraphrases된 텍스트뿐만 아니라, 그 주변의 context가 되는 것이다.

즉, autoregressive하게 토큰들을 생성해나갈 때, 기존 문장의 context을 본다는 것인가?

우리는 이를 미래 연구로 남겨눈다.

Reference

https://arxiv.org/pdf/2010.12885.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-105, Unsupervised Paraphrase Generation via Dynamic Blocking (2020-Preprint)

◼️ Comment

0 Abstract

1 Introduction

2 Model

2.1 Dynamic Blocking

2.2 Re-ranking of candidates

2.3 Task-adaptation

2.4 Self-supervision

3 Experimental Setup

3.1 Details of Dynamic Blocking

3.2 Automatic evaluation

3.3 Human evaluation (번역)

4 Results

4.1 Automatic evaluation (번역)

4.2 Human evaluation

5 Analysis (번역)

5.1 Curse of BLEU on paraphrase evaluation

5.2 Generalization to other languages

6 Related Work

7 Conclusion

댓글

댓글 쓰기