NL-105, Unsupervised Paraphrase Generation via Dynamic Blocking (2020-Preprint)
◼️ Comment
- 이 논문은 NL-104에 이어, parallel 코퍼스 없이, unsupervised paraphrase하는 것이다.
- 근데 NL-104와 또 다른 점은, 아예 아무런 학습없이 pre-trained LM만 가지고 paraphrase을 할 수 있다는 것이다.
- 물론 모든 pre-trained LM은 아니고, BART로 가능하다는 것이다.
- BART가 아니여도 encoder-decoder 식의 pre-trained LM이면 될 듯하고, 이것을 수행하기위해 Dynamic Blocking을 제시한다.
- GPT-2와 같은 모델은 task-adaptation을 해줘야한다.
- 사실 가장 큰 컨트리뷰션으로 보이는 것은 Dynamic Blocking이다.
- 이것은 생성할 때, 원본 텍스트를 이용해 제한을 주는 것이다.
- 예) 원본: "나는 사과 나무를 좋아한다."
- 생성: "사과" 에서 나무를 생성해버리면 "사과 나무"가 중복되니까 "나무"말고 다른 것을 생성하게끔하는 것이다.
- 생성예시: "사과 농장을 나는 좋아한다." 이렇게 한다는 것이다.
- 즉, 연속되서 중복된 것을 생성하지 못하게 막는다는 것이다.
- 항상 100% 막는 것은 아니고, p라는 threshold 개념을 줘서 p확률보다 낮은 토큰은 block하지 않는 것이다.
- 또한 모든 단어들이 blocking 대상이 되는 것은 아니다.
- 1) 영어안의 closed classes
- prononuns(대명사), determiners(한정사), conjunctions(접속사), prepositioins(전치사)
- 2) open-class word
- nouns(명사), lexical verbs(어휘 동사), adjectives(형용사), adverbs(부사)를 포함한다.
- 위 두개에 해당하는 것들은 그냥 냅둔다고 한다. 왜냐하면 이를 block해서 바꾸기에 동의어가 적을 뿐더러, 문법상의 오류가 발생할 수 있기 때문이라고 한다.
- Autoregressive model
- BART에 Dynamic Blocking으로 바로 paraphrase을 할 수 있는 이유는, BART가 denoising encoder-decoder 스타일이기 때문이다.
- 즉 애초에 원본을 생성하도록 학습된 모델이고, 여기서 생성방식에 변형을 줘서 패러프레이징이 되는 것이다.
- GPT-2와 같은 모델로 하려면 어떻게 해야할까? 추가적으로 BART에 학습을 해서 성능을 높이려면 어떤 학습을 해야할까?
- 이 부분이 task-adaptation과 self-superivsion이다.
- Task-adaptation
- 즉 GPT-2가 패러프레이징을 할 수 있도록 post-training을 하는 것이다.
- 꼭 GPT-2가 아니여도 BART에다 이어서 적용할 수도 있다
- 따라서 corrupted-->original 식으로 모델을 학습하는 것이다.
- 여기서 사용되는 데이터는 task에 맞는 데이터들만 사용하는 것이다. (QQP, ParaNMT와 같은)
- 추가로 여기서 어떻게 corrupted 문장을 만드는지는 안나와있다.
- Self-supervisoin
- 사실 이 부분이 task-adaptation과 뭐가 다른거지? 라는 의문이 아직도 있다.
- 내가 이해한 것은 domain-adaptation 개념으로 학습 방식은 task-adaptation과 같으나 목적이 domain에 맞는 데이터를 쓴다는 것이다.
- 즉 같은 것이나, 도메인 데이터들로 post-training을 하는 것 같은..
- 추가 스킬
- beam-search로 4개를 생성해서 ranking을 매기는데 BERTScore+Key information(rare words와 같은) IDF을 이용해서 랭킹을 매긴다고한다.
0 Abstract
- 우리는 Dynamic Blocking을 제안한다, 이는 decoding 알고리즘으로 unsupervised setting에서 large-scale pretrained autoregressive models이 (such as BART, T5, GPT-2 and XLNet) 높은 퀄리티를 가지는 paraphrases의 생성을 가능하게 한다.
- alternative surface form을 얻기 위해, LM이 source sequence의 현재 token을 내보낼때마다, 우리는 모델이 next time step을 위해 연속적인 source token을 생성하지 못하게 막는다.
- 우리는 우리의 접근법이 벤치마크 데이터세트에서 이전의 unsuperivsed 접근법들에 비해 SoTA을 달성하고 강한 supervised, indomain models와 비슷한 결과를 보여준다.
- 우리는 self-BLEU와 BERTscore을 기반으로하는 새로운 automatice metirc을 제안하고 이는 모델이 입력을 따라 복사를 discourage할 뿐 아니라 distributed representations을 기반으로하는 text similarity을 평가해서 exact keyword matching의 의존성을 피한다.
- 게다가, 우리는 우리의 모델이 어떠한 additional training 없이, 언어들에 걸쳐 일반화함을 증명한다.
1 Introduction
- Paraphrase generation은 semantic meaning을 보존하면서, 다른 형태로 text 입력을 다시 작성하는 것이다.
- 이것은 다운스트림 NLP tasks의 다양한 어플리케이션을 가진다.
- 어플리케이션: 챗봇과 같은 user-facing 시스템들에서의 텍스트 생성의 다양화뿐만 아니라 text summarization, semantic parsing
- paraphraser은 모델의 강건함을 평가하기위해 adversarial examples을 사용하는데 사용될 수 있다.
- 생성된 예제들은 또한 adversarial attakcs에 좀 더 강인해지기 위해서 neural networks을 학습하는데 활용될 수 있다.
- QA 시스템들에서, paraphrasing questions은 더 많은 학습 데이터로 QA 모델들을 강화할뿐 아니라 더욱 knowledge 기반의 keywords에 매칭되도록 만든다.
- 그러나, paraphrases을 어노테이트하기는 비싸기 때문에, 오직 몇 개의 human-labeled datasets만의 결과들이 있다.
- 기존의 하나는 MRPC와 같은 small-scale이거나 전체가 questions으로 구성되어 있는 QQP와 같은 closed domain이다.
- 결과적으로, 이전의 연구들 또한 ParaNMT, Twitter와 같은 자동적으로 annotated datasets으로 탐구되었거나 MSCOCO, WikiAnswers와 같은 noisy dataset을 용도를 변경했다.
- 높은 퀄리티의 paraphrase data의 부족은 우리에게 transfer learning 접근법을 고려하게하고 이는 BART와 같이 large-scale pretrained autoregressive LMs을 활용한다.
- paraphrase identification에서 BERT-score의 효율성은 pretrained language models은 이미 text similarity에서 광범위한 knowledge을 가지고 있음을 보여준다.
- knowledge은 유사한 컨텍스트를 공유하는 텍스트 범위가 서로 의미 상 가깝게 유지된다는 사실에 기인 할 수 있습니다.
- 단어 임베딩이 전형적인 예입니다.
- 다른말로 paraphrasing 능력을 위해 LMs을 이용하는 것은 자연스럽게 context와 semantic similarity 사이의 강한 correlation을 활용하는 것이다.
- 실제로, 이전의 연구에서 supervised와 weakly supervised settings에서 GPT-2의 명시적인 knowledge을 활용하는 연구가 탐구되었다.
- 이 연구에서 우리는 또한 패러 프레이징을 위해 pretrained autoregressive models을 사용하지만 감독되지 않은 설정에서 사용합니다.
- 그러나, paraphrasing의 목적은, decoder-only 모델들은 오직 입력의 연속만 출력하지만, BART와 같은 seq2seq 모델들은 생성중에 입력 토큰들의 확률이 뾰족하기 때문에(greedy의미?) 입력을 복사하는 경향이 있다.
- 즉 GPT2 스타일은 입력의 연속이고, seq2seq는 입력을 복사하는 경향이 있다
- 이것은 그들이 greddy decoding, bream search 혹은 top-k/p sampling와 같은 유명한 decoding 알고리즘들을 어렵게 만든다.
- 이 연구에서, 우리는 dynamic blocking을 제안하는데, 이는 pretrained autoregressive language models을 자연스러운 paraphrasers으로 노력없이 변환시키는 decoding 알고리즘이다.
- 입력의 다른 surface 형태를 얻기 위해, 우리는 source sequence의 현재 토큰을 출력할 때마다, 이 알고리즘은 next generation step을 위해, 모델이 즉각적인 뒷부분을 생성하는 것을 막는다.
- 이 알고리즘은 각 생성 스텝에서 top candidate이 peaked probability에 대응함에도 불구하고 인퍼런스 동안 직관을 기반으로 한다.
- distribution의 나머지는 (re-noramlized 할 때) 여전히 패러프레이징을 위한 적절한 풍부한 linguistic knowledge을 함유한다.
- 이것은 model distillation에서 soft targets을 사용하는 것과 유사하다.
- 우리는 이전의 모델들과 비교해서 Quora Question Pair (QQP) 데이터세트에 대한 SoTA을 달성한다.
- ParaNMT dataset에서, 우리의 모델은 in-domian 모델들의 강한 supervised와 비교할만하며, 그래서 supervised 접근법들과 차이가 근소하다.
- 우리는 또한 새로운 automatic metric을 제안하여, 이는 BERT-score와 self-BLEU의 harmonic 평균이고 human evaluation와 높은 연관성을 가진다.
- 퀄리티 분석을 통해, 우리는 Dynamic Blocking이 높은 퀄리티 paraphrases을 생성하는데 이는 일관성있고 문장 구성이 다양하다.
- 우리는 또한 구체적인 예시를 보여줘서, 우리의 접근법이 어떠한 addtional training 없이, 독일어에서 paraphrases을 생성할 수 있음을 보여준다.
2 Model
- 이 섹션에서, 우리는 BART을 기본 LM으로 이용해서 Dynamic Blocking을 소개하고 나중에 self-supervised training으로 task 적용을 한다음, 다른 auto-regressive models로 어떻게 일반화할 수 있는지 소개한다.
- BART의 pre-training objective는 auto-regressive decoder로 corrupted version으로부터 oiriginal document을 재구성하는 것이다.
- 이것은 모델이 source sequence에 attending하는 것과 context에 집중을 하여 일관성있는 출력을 생성하게 하게 능력을 부여한다.
2.1 Dynamic Blocking
- Section 1에서 언급했듯이, greddy decoding 혹은 top-k/p sampling을 가진 BART는 항상 source sequence을 통하여 카피한다.
- 모델이 다른 형태의 form을 생성하게끔 강제하기 위해, 우리는 Dynamic Blocking (그림1) 으로 decoding 알고리즘으로 제안한다.
- 알고리즘 1에서 설명하듯이, 우리는 source sequence S = (S0, S1, ..., SM)을 tokens 리스트로하고, sequence G = (G0, G1, ..., GN )을 생성한다.
- generation동안 모델은 몇 개의
와 동일한
을 생성한다고 가정한다. (여기서 i=j 일 필요는 없음)
- 이러한 blocking은
을 부과해서 기존의 것과 다른 sequence을 생성하도록 강제한다.
- 위 말을 알고리즘으로 표현했는데, G에서 decoding을 생각하자.
- 만약 Gi 토큰이 S에 있는 토큰 Si이라면, Gj+1은 Si+1와 무조건 다르게 하겠다는 것이다.
- 근데 이 방식이 항상 좋은건가? 싶긴 함.
- 이렇게 한 스텝 blocking하고 난 후는 blocking없이 가다가, 다시 S에 겹치는 토큰 발생하면 blocking이 수행되고 그런 식인 듯..
- 오직 one time step만 block하는 이유는 기존 시퀀스의 pure syntactic variation을 가능하게하고, 모든 토큰들은 유지되지만, 그들의 순서는 변경된다.
- 이것을 입증하기 위해, 우리들이 decoding 알고리즘으로 모델이 all time steps에서 source token을 생성하는 것을 완벽히 못하도록 고려해본다.
- 이 알고리즘을 static blocking이라 한다.
- 이렇게까지 또 다 막는게 좋은가? 매 번 다르게 blocking이 되는게 좋을 거 같은데..
- 우리가 "I like apples and oranges."을 "I like oranges and apples."로 패러프레이지하려고 가정해보자.
- 이것은 가능한 paraphrase이다.
- 그러나 만약 우리가 완벽히 "apples"을 all time steps에서 block한다면, 이것은 이러한 paraphrase에 도달하지 못할 것이다.
- 그러나, Dynamic Blocking을 사용한다면, "and"가 생성되고나서 이 단어가 잠시 block되었더라도 모델이 여전히 "apples" 단어를 나중에 생성할 수 있다.
- 그림 1에서 보여주듯이, Dynamic Blocking은 block dictionary을 구축해서 소스 시퀀스의 각 토큰이 즉각적인 후속과 매핑이 되도록 한다.
- 우리는 그리고나서, 각 entry에서 probability p을 가지는 dictionary으로부터 샘플링한다.
- 그림에서 Active로 표시된 부분인 듯
- 이 하이퍼파라미터는 우리가 소스 입력으로부터 패러프레이지를 얼마나 원하는지 컨트롤한다.
- 두 개의 극단적인 케이스
- p=0.0일 때, 모델은 어떠한 토큰들도 block하지 않고 최대한 소스 시퀀스를 통하여 복사하려고 한다.
- p=1.0일 때, 모델은 항상 즉각적으로 next token을 block하여 surface form이 완전히 달라진다.
- 즉 최대 확률 next token이 overlap 될 때 항상 block하는 것이 아니고, 적정 확률 p이하일 때 block하는 것이다. (즉 p가 높을 수록 block을 자주 한다는 것)
- 이 연구에서, 우리는 중간 지점인 p=0.5로 세팅하여 각 blocking action에 대해 candidate의 절반이 path을 취하게 한다. (즉 반만 block 한다.)
- text 생성에 필요한 다양성을 달성하기 위해, 꽤 많은 이전의 연구들이 top-k/p sampling을 적용한다.
- 그러나, 이것은 보통 반복된 tokens을 포함하는 일관성없는 문장들을 결과로 한다.
- 이러한 단점을 피하기 위해, 우리는 여러 다른 block 사전들을 샘플링하면서 candidates 사이의 다양성을 보장하고 beam search을 활용해서 일관성을 보장한다.
- 각 샘플링된 block 사전들에서, 우리는 beam search로 4개의 candidates을 생성하고 top-ranked 2개를 유지한다.
- beam search 만으로는 적절한 paraphrases을 생성할 수 없지만, Dynamic Blocking의 도움으로 생성 퀄리티를 크게 향상시킨다.
- 즉 dynamic block + beam search 4로 디코딩했다는 것
- top-rank 2개를 유지하는 기준은 뭐지? --> 2.2
2.2 Re-ranking of candidates
- (Li et al., 2019)와 유사하게, 우리는 source 입력에 대한 semantic similarity와 surface-form dissimilarity 둘 다 고려해서 생성된 candidates을 re-ranking한다.
- semantic similarity을 위해, 우리는 BERTscore을 사용하고, 이는 candidate sentence와 각 토큰과 reference sentence의 각 토큰을 contextual embeddings을 사용해서 cosine similiarty을 계산한다.
- key information을 (보통 연관된 rare words) paraphrase에서 유지하기 위해서, 우리는 BERTscore을 계산할 때, 내부기능인 IDF-reweighing을 각 토큰에 적용한다.
- 우리는 BookCorpus dataset을 사용해서 IDF weights을 얻는다.
2.3 Task-adaptation
- BART와 그의 변형 (예. mBART)은 Dynamic Blocking을 바로 적용해서 paraphrases을 생성할 수 있고, 다른 pretrained autoregressive LM들은 (T5, GPT-2, XLNet과 같은) 여전히 task adaptation이 필요하다.
- Gururangan et al. (2020)을 따라, 우리는 nonparallel sentences의 concatenation을 training set으로 한 target dataset에 대해 task-adaptive 학습을 적용한다.
- Gururangan 참고: 링크
- 각 문장에서, 우리는 그것의 corrupted version을 source 입력으로 취하여 original sentence을 target으로 간주한다.
- 이전의 연구 (Devlin et al., 2018; Lewis et al., 2019)와 달리, 우리는 입력에 masks을 씌우는 식으로 corrupt하지 않고, 직접적으로 corrupted tokens을 삭제한다. (NL-104와 같은 방법, 여기서는 어떻게 corrupted??)
- 이것은 paraphraser이 어떠한 masks도 입력으로 포함하지 않기 때문에 denoising autoencoding models에서 pretrain-finetune discrepancy을 피하는 것이다.
2.4 Self-supervision
- Dynamic Blocking와 re-ranking 전략들로부터 받는 regulairzations을 모델이 내재화하도록 돕기위해, 우리는 self-supervision을 인퍼런스동안 수행해서 모델이 그들에 덜 의존해서 더욱 다양한 candidates을 Dynamic Blocking을 생성하도록 한다.
- 인퍼런스동안 self-supervision을 수행한다는게 뭐지?
- 그래서, 우리의 메인 모델이 self-superivsion을 따라 domain adaptation의 파이프라인을 따른다.
- 각 finetuning 단계가 가져다주는 이점에 대한 추가 통찰력을 제공하기 위해 두 가지 ablation 연구 결과를 보여준다
- 1) domain adaptation only, and for 2) BART-like models self-supervision only.
- task-adaptation은 task 데이터가지고 모델을 pretraining한다는 것이다 (내가 알고 있는 post-training 개념인 듯)
- 단지 여기서 GPT2도 BART처럼 corrupted->original을 학습한듯.
- (self-supervision) domation adaptation은 task-adaptation과 마찬가지로 학습방식인데, 도메인 전체의 학습 데이터를 사용한다는 거 같음.
- 만약 task-adapted model로 pseudo 학습 예제를 생성한다면, 우리는 catastrophic forgetting을 피하기 위해, task-adapted 된 것보다 pretrained LM을 사용할 것이다.
3 Experimental Setup
3.1 Details of Dynamic Blocking
- Block variation and inflections
- 초기 실험에서 우리는 단어를 blocking 할 때 (예 : "give") 모델이 일반적으로 대문자 ("Give") 또는 upper ( "GIVE") 버전을 생성하거나 그 변형인 (“gives”, “gave”, “giving”, “given”)을 생성한다.
- 두 경우 모두 인간의 관점에서 볼 때 일반적으로 좋은 의역이 아닙니다.
- 직관적으로 다른 단어를 선호합니다.
- 즉, 대문자 소문자 식의 생성은 좋은 패러프레이징이 아니다.
- 따라서 우리는 차단할 단어의 모든 굴절을 열거하기 위해 패턴 library를 사용합니다.
- 이것은 어미변화를 포함하는 대부분의 언어에서 사용할 수 있습니다.
- 또한 BERT의 이후 버전에서 도입 된 전체 단어 마스킹과 유사하게 하위 단어가 아닌 단어의 시작 부분 만 차단합니다.
- Block closed-class words
- 우리는 또한 linguistic knowledge을 활용해서 closed-class words 혹은 functional words을 blockig을 피함으로써 paraphrases의 퀄리티를 향상시킨다.
- 영어안의 closed classes는 prononuns(대명사), determiners(한정사), conjunctions(접속사), prepositioins(전치사)등을 포함한다.
- 반대로, open-class word는 nouns(명사), lexical verbs(어휘 동사), adjectives(형용사), adverbs(부사)를 포함한다.
- 이 단어를 차단하는 데는 두 가지 이유가 있습니다.
- 1) 그들이 closed-class이기 때문에, 여기에는 사용가능한 동의어가 적다;
- 2) 이러한 단어를 blocking하면 에러가 잘 발생한다.
- 예를 들어, determiners의 변경은 (예. you -> I) 아마도 grammar errors을 유발할 거고, conjunctions의 수정은 (and --> or) 아마도 논리적 관계를 변경시킬 것이다.
3.2 Automatic evaluation
- Dataset
- 우리는 Quora Question Pair (QQP) and the ParaNMT dataset에서 평가한다.
- QQP는 140K paraphrase paris와 640K non-parallel 문장들을 가지고있다.
- dev와 test sets의 사이즈는 각각 3K와 20K이다.
- ParaNMT 데이터 셋 (Wieting and Gimpel, 2017)은 CzEng (Bojar et al., 2016) 데이터 셋에서 영어<->체코어로 문장을 back-translating하여 구성되었습니다.
- 평가를 위해, 우리는 Goyal and Durrett (2020)로부터 SOW-REAP의 테스터세트를 직접적으로 획득한다.
- task-adaptive 학습을 위해, 우리는 ParaNMT-5M에서 500K non-parallel 문장들을 샘플링하고, self-supervised 학습에선 우리는 같은 코퍼스에서 20K을 샘플링한다.
- 테스트 예제에 대한 학습을 피하기 위해 SOW-REAP의 테스트 세트에서 오는 모든 문장을 필터링합니다.
- Automatic metrics
- 패러 프레이징의 품질을 평가하기 위해 Li et al. (2019)는 QQP에 iBLEU (Sun and Zhou, 2012) 및 ROUGE (Lin, 2004)를보고하고 ParaNMT에 대해 BLEU (Papineni et al., 2002) 및 ROUGE (Lin, 2004)를보고합니다.
- ParaNMT의 경우 BLEU는 먼저 Ground Truth로 최고의 문장 수준 점수를 달성 한 후보를 선택한 다음 이러한 모든 후보의 말뭉치 수준 BLEU를 계산하여 계산됩니다.
- py-rouge를 사용하여 ROUGE 점수를 계산하고 HuggingFace의 Datasets 라이브러리를 사용하여 BLEU 점수를 계산합니다.
3.3 Human evaluation (번역)
- Reproducing previous model
- 이전 작업과 비교하기 위해 QQP의 경우 Hegde와 Patil (2020)의 모델을 재현했으며, 이를 CorruptLM이라고합니다.
- (NL-104) CorruptLM: Unsupervised paraphrase generation using pre-trained language models
- 이 모델은 작업 적응형 미세 조정 접근 방식 (섹션 2.3)과 유사합니다.
- 주요 차이점은 토큰의 고정 된 비율이 아닌 모든 불용어를 제거하여 입력을 손상 시킨다는 것입니다.
- 원본 논문은 불용어의 출처를 제공하지 않았기 때문에 숫자와 일치시키기 위해 The Corpus of Contemporary American English (Davies, 2010)에서 처음 252 개의 단어를 추출했습니다.
- 작업에 사용되는 GPT-2 대신 다양한 다운 스트림 작업에서 더 강력한 결과를 보여주는 BART를 사용합니다.
- 나머지 설정은 동일하게 유지됩니다.
- 모델이 원래 문장에 없었던 재구성 된 문장에서 새로운 단어를 갖도록 장려하기 위해 단어의 20 %가 syn-net을 사용하여 동의어로 무작위로 대체됩니다 (Miller, 1998) (추론 중에도 적용됨).
- 즉, 감독 신호는 대부분 syn-net의 주석에서 비롯되는 반면 모델은 동의어를 복사하는 방법을 학습합니다.
- 따라서 우리는 CorrputLM을 약하게 감독되는 모델로 취급합니다.
- ParaNMT의 경우 Goyal과 Durrett (2020) 11에서 발표 한 SOW-REAP 모델을 사용하여 논문에보고 된 결과를 성공적으로 재현하고 표 3에도 나와 있습니다.
- Evaluation setup
- 각 실험에 대해 우리는 최종 모델을 세 가지 모델 중 하나 (CorruptLM, 추론 중 동적 차단이없는 최종 모델, 근거 진실) 중 하나와 정면으로 비교합니다.
- CorruptLM,
- the final model without Dynamic Blocking during inference,
- the ground-truth.
- 이전 모델과 비교할 때 우리는 어노 테이터에게 그들이 더 좋아하는 패러 프레이즈를 식별하도록 요청합니다.
- 후자는 self-BLEU로 확인하기 쉽기 때문에 의도적으로 semantic similarity과 diversity을 별도로 평가하도록 요청하지 않습니다.
- 자동 메트릭으로 평가하기 어려운 것은 의역의 전반적인 품질입니다.
- 각 실험에 대해 QQP의 테스트 세트에서 100 개의 예를 무작위로 샘플링합니다.
4 Results
4.1 Automatic evaluation (번역)
- QQP
- An interesting observation on previous results is that domain adapted supervised models perform worse than in-domain unsupervised models.
- This shows that the performance gain for the unsupervised models mainly come from learning QQP’s data distribution.
- Our approach also benefits from such training due to the task adaptation phase (Section 2.3).
- 테이블에서 흥미로운 관찰 중 하나는 작업 적응이 ROUGE를 크게 향상시키는 반면,자가지도 훈련은 BLEU 점수를 높인다는 것입니다.
- However, we could not yet think of a reason to explain why self-supervised training enhances BLEU performance.
- 주의해야 할 또 다른 추세는 self-supervision을 따른 task adaptation을 수행 할 때 결과 성능이 작업 적응과 거의 동일하다는 것입니다.
- 이는 출력에 다양성을 가져 오는 동적 차단이 BLEU에 영향을 미치는 주요 요소임을 보여줍니다. 점수.
- ParaNMT
- 표에서 우리는 CorruptLM이 QQP에서 적절한 성능을 달성하더라도 도메인 간 평가시 모델이 견고하지 않음을 알 수 있습니다.
- 반대로, 우리 모델은이 측면에서 훨씬 더 나은 성능을 발휘하여 도메인 내 최종 모델 (마지막 행)에 매우 가까운 결과를 얻습니다.
- 또한 ParaNMT의 데이터 배포를 학습하는 것이 QQP를 학습하여 자동 성능을 향상시키는 것보다 훨씬 덜 효과적이라는 것을 보여줍니다.
- QQP와 달리 ParaNMT의 복사 입력 성능은 모든 모델 중에서 가장 낮습니다.
- 그러나 다른 모든 결과는 10 명의 후보를 기반으로하기 때문에 이는 완전히 공정한 비교가 아니며, 최종 점수 계산을 위해 문장 수준의 점수가 가장 높은 후보 만 유지됩니다.
- 반대로 복사 입력에는 후보가 하나만 있습니다.
- 따라서 독자는이 테이블을 소금 한 알로 보는 것이 좋습니다.
4.2 Human evaluation
- 표 2에서 우리는 추론 중에 동적 차단을 적용하면 실제로 자동 메트릭 성능이 저하된다는 것을 알았습니다.
- 이는 BLEU 및 ROUGE가 때때로 오해의 소지가 있음을 보여줍니다.
- 마지막 행은 감독되지 않은 모델 출력이 전체적으로 인간이 생성 한 출력만큼 강력하지 않음을 보여줍니다.
- 그러나 휴먼 애노 테이터가 모델 출력이 기준 52 %와 같거나 더 낫다고 생각한다는 점을 고려하면 여전히 모델의 성능을 경쟁력있는 것으로 해석 할 수 있습니다.
5 Analysis (번역)
5.1 Curse of BLEU on paraphrase evaluation
- 섹션 4에서는 BLEU 점수가 더 높은 모델이 인간 평가 점수가 더 낮다는 것을 알 수 있습니다.
- BLEU가 인간의 인식과 잘 연관되지 않는 이유는 두 가지 반대 세력이 있기 때문입니다.
- 첫 번째 힘은 이름이 지정된 엔티티와 같은 중요한 정보를 그대로 유지하는 데서 비롯됩니다.
- 다른 한편으로, 두 번째 힘은 동일한 기본 의미를 표현하기 위해 다른 표현을 사용하는 데서 비롯됩니다.
- 모델이 더 좋을수록 BLEU가 더 나빠집니다.
- 두 가지 모두에 좋은 모델의 경우, 주요 엔터티 일치에 대한 BLEU의 이득과 다른 단어 사용에 대한 손실은 서로를 상쇄하므로 BLEU가 의역 품질을 충실하게 평가하지 못합니다.
- 반면에 BERT 점수는 여전히 첫 번째 힘을 장려하는 반면 두 번째 힘에 의해 많은 처벌을받지 않아 더 나은 측정 기준으로 자리 매김합니다.
- 그러나 입력을 parroting하는 것은 여전히 BERT 점수만을 속일 것입니다.
- 따라서 우리는 iBLEU와 마찬가지로 다양성을 장려하기 위해 self-BLEU도 포함합니다.
5.2 Generalization to other languages
- 우리는 BART가 독일어 말뭉치에 대해 명시 적으로 훈련되지 않았고 독일어를 위해 특별히 만들어진 어휘도 아니지만 모델이 이미 의역 할 수있는 기능을 갖추고 있다는 사실을 발견했습니다.
- 표 5에는 이러한 예와 Google Translator의 영어 번역이 나와 있습니다.
- 독일어로 된 모든 문장 (왼쪽 열)은 표면 형태가 다르지만 영어로 된 모든 번역 (오른쪽 열)은 비슷한 의미를 공유한다는 것을 알 수 있습니다.
- 우리가 아는 한 이것은 영어 이외의 언어로 paraphrase할 수있는 최초의 unsupervised model입니다.
6 Related Work
- 의역 생성은 텍스트 요약 (Cao et al., 2016), 시맨틱 파싱 (Berant and Liang, 2014) 및 질문 응답 (Yu et al., 2018)을 포함한 다운 스트림 NLP 작업에 여러 응용 프로그램이있는 오랜 문제였습니다.
- 의역 생성에 대한 초기 작업은 대부분 규칙 기반 또는 통계 기계 번역 시스템에 의존합니다 (McKeown, 1980; Meteer and Shaked, 1988; Bannard 및 CallisonBurch, 2005).
- Supervised Approaches
- 신경 시퀀스 -tosequence 모델도이 작업을 해결하기 위해 활용되었습니다 (Prakash et al., 2016; Gupta et al., 2017; Li et al., 2017; See et al., 2017; Vaswani et al., 2017; Gupta et al., 2018).
- 더 다양한 의역을 생성하기 위해 구문 구조를 활용하는 몇 가지 이전 작업 (Iyyer et al., 2018; Chen et al., 2019; Li et al., 2019)이있었습니다.
- 가장 최근에 Goyal and Durrett (2020)은 신경 패러 프레이징 모델을 안내하기 위해 구문 구조를 통해 소스 문장을 재정렬 할 것을 제안한 반면 Qian et al. (2019)는 다양한 의역을 생성하기 위해 고유 한 생성기를 사용합니다.
- 의역 생성 작업에 대해 검색된 생성 방법도 조사되었습니다 (Kazemnejad et al., 2020; Lewis et al., 2020).
- 그러나 이러한 접근 방식의 대부분은 MRPC (Dolan and Brockett, 2005) 또는 도메인 별 QQP가 부족한 병렬 의역 데이터가 필요합니다.
- Unsupervised Approaches
- 반면에 감독되지 않은 패러 프레이징은 NLP에서 다소 덜 탐구되고 더 어려운 문제입니다.
- 강력한 신경 기계 번역 (NMT) 모델을 사용하는 두 언어 간의 Round-trip translation (즉, back-translation)은 의역 생성에 널리 사용되는 비지도 접근 방식이되었습니다 (Yu et al., 2018).
- Bowman et al. (2016)은 병렬 의역 말뭉치를 요구하지 않고 입력 문장의 재구성 로그 가능성에 대한 하한을 최대화하기위한 목적으로 VAE를 훈련합니다.
- 훈련된 VAE의 디코더에서 샘플링하면 디코더가 훈련 목표에 따라 입력 문장을 재구성하는 것을 목표로하므로 사실상 의역으로 간주 될 수있는 문장으로 이어집니다.
- Liu et al. (2019)는 의역적 유사성, 표현 다양성 및 언어 유창성을 고려한 목적 함수와 관련하여 최적의 지점을 찾기 위해 문장 공간을 검색하는 최적화 문제로 의역 생성을 캐스팅합니다.
- Siddique et al. (2020)은 심층 강화 학습을 활용하여 유사한 목표를 최적화합니다.
- Transfer learning
- 감독 (Witteveen and Andrews, 2019) 또는 약한 감독 (Hegde and Patil, 2020) 환경에서 사전 훈련 된 언어 모델 (LM)을 활용하여 의역을 생성하는 작업은 거의 없습니다.
- 두 작품 모두 GPT-2를 백본 생성 모델로 병렬 또는 약하게 주석이 달린 데이터를 사용합니다.
- 우리가 아는 한, 우리는 LM으로 의역을 생성 할 수있는 비지도 모델을 최초로 제안했습니다.
7 Conclusion
- 이 연구에서, 우리는 Dynamic Blocking이라 부르는 decoding algorithm을 고안하고, 이는 supervised setting에서 pretrained autoregressive LM으로 paraphrases을 생성할 수 있다.
- 우리는 automatic metric과 human evaluations으로 우리의 모델이 벤치마크 데이터세트에서 SoTA 결과들을 달성함을 입증한다.
- 우리는 모델 분석을 통해 training 없이 다른 언어들에 대해 일반화가 가능함을 보여준다.
- 흥미로운 방향은 context-aware paraphrase generation인데, output 조건은 paraphrases된 텍스트뿐만 아니라, 그 주변의 context가 되는 것이다.
- 즉, autoregressive하게 토큰들을 생성해나갈 때, 기존 문장의 context을 본다는 것인가?
- 우리는 이를 미래 연구로 남겨눈다.
Reference
댓글
댓글 쓰기