NL-107, Unsupervised Paraphrasing via Deep Reinforcement Learning (2020-KDD)

◼️ Comment

  • 이 논문의 제목처럼 unsupervised paraphrasing이고 pivoting이 아닌 autoencoder의 느낌으로 진행이 된다.
  • 즉 입력->인코딩->디코딩 인데 이전의 논문과 같이 noise을 주지 않고 재구성하는 것이다.
  • 근데, 단순히 재구성하게 학습을 하는게 아니라, 다른 모델인 VAE을 학습하여 활용하는 것이다.
    • 1) 비병렬 데이터세트로 VAE 모델을 학습한다. (재구성)
    • 2) 본 모델을 학습하기 위해, gold reference로 VAE 모델의 출력을 이용해 학습한다.
    • 3) 본 모델을 reward을 이용하여 학습한다.
    • 어떻게보면, 대화생성에서 가끔 보이는 방법과 같이, 1,2)을 합쳐서 autoencoder 식으로 학습하고 reward를 섞어서 이어서 학습 진행하는 느낌이다.
  • 여기서는 1->2->3으로 가는 과정을 3개의 phase로 나눠서 설명한다.
    • 즉 바로 discrete하게 넘어가는게 아니라, 그림1처럼 action으로 출력할 gold token을 뒤에서 부터 조금씩 바꿔나간다.
    • 이를 transition이라고 부르고 이것의 효과는 이전의 비병렬 패러프레이징의 단점2번을 극복한다고 주장한다.
    • (i) DRL은 random policy에서 (예. random exploration strategy) 시작할 때, 많은 vocabulary 크기에 대해 잘작동하지 않는다고 알려져있다. [10, 23]
    • (ii) paraphrasing은 multi-step (word-by-word) 예측 테스크이고, 앞서 타입스텝에서 작은 오류는 next 토큰 예측에 합쳐지므로 문장의 남은 부분에 대한 poor prediction을 이끌 수 있다.
    • (iii) parallel sentences에 접근없이, 모든 좋은 paraphrase의 특성을 결합한 reward function을 정의하기가 어렵다.
  • reward는 3가지로 구성된다.
    • 1) USE을 이용한 Semantic Adequacy
    • 2) ELMo을 이용한 Language Fluency
    • 3) i-BLEU을 이용한 Expression Diversity
    • 근데, 여기서 i-BLEU가 1-BLEU 점수인거 같은데 그러면 BLEU와는 역의 관계이다.
    • 실험결과 테이블3을 보면 i-BLEU도 높고 BLEU가 높을 수 있는 것인가?
    • 아마도 i-BLEU는 input과 output의 BLEU 점수를 기반으로 하고 BLEU는 gold references와 output간의 BLEU 점수를 계산한 것 같다.

ABSTRACT

  • Paraphrasing는 유창함을 유지하면서 입력 문장의 의미를 다른 단어들로 표현하는 것이다. (grammatical and syntactical correctness)
  • paraphrasing에서 대부분 기존의 연구는 특정 도메인에 대해 한계가 있는 supervised models을 사용한다. (예. image captions)
  • 이러한 모델은 다른 도메인으로 간단하게 transferr되거나 잘 일반화 될 수 없으며, 새 도메인에 대한 레이블된 학습 데이터를 만드는 것은 비용과 노력이 많이 듭니다.
  • 서로 다른 도메인에 걸친 패러 paraphrasing의 필요성과 이러한 많은 도메인에서 레이블된 학습 데이터의 부족으로 인해 unsupervised paraphrase generation 방법을 탐색해야합니다.
  • 우리는 Progressive Unsupervised Paraphrasing (PUP)을 제안한다.
    • deep reinforcement learning (DRL)을 기반으로한 새로운 unsupervised generation 방법
  • PUP는 variational autoencoder을 (nonparallel 코퍼스를 사용하여 학습된) 사용하여 DRL 모델을 warm-starts하는 seed paraphrase을 생성한다.
  • 그래서, PUP는 우리의 새로운 reward function에 따라 순차적으로 seed paraphrase을 조정한다.
    • reward는 semantic adequacy, language fluency 그리고 expression diversity measures을 결합하여 parallel sentences없이 각 iteration에서 생성된 paraphrases의 퀄리티를 정량화하여 측정한다.
  • 우리의 광범위한 실험적인 평가는 PUP가 4개의 real datasets에서 automatic metrics와 user 연구들에 관하여 unsupervsied SoTA paraphrasing 기술들을 보여준다.
  • 우리는 또한 PUP가 여러 데이터세트에서 domain-adapted supervseid 알고리즘을 능가한다.
  • 우리의 평가는 또한 PUP가 semantic similarity와 expression의 diversity의 trade-off을 달성함을 보여준다.

1 INTRODUCTION

  • Paraphrasing은 입력 문장이 주어질 때, 다른 단어들로 같은 의미를 전달하며 유창한 출력 문장을 생성하는 테스크이다.
  • 이것은 summarization, information retrieval, question answering, conversational agents와 같은 많은 어플리케이션와 같은 NLP에서 중요한 문제이다.
  • 이전의 paraphrasing work의 대부분은 supervised paraphrasing 방법들에 집중해왔고, 이는 학습을 위해 많은 parallel sentences의 코퍼스를 요구한다. (예. 입력과 대응되는 paraphrases 문장)
  • 뉴럴 번역기에서 많은 데이터세트와 달리, paraphrasing을 위한 많은 병렬 코퍼스가 없고, 그들은 주로 domain-specific이다.
    • 예. Quora는 questions dataset이고 MSCOCO은 imace captioning dataset이다.
  • 많은 도메인에서 paraphrasing을 위한 큰 병렬 데이터세트을 수집하는 것은 비싸고 힘든 부분이라, 확장가능하지 않다.
  • 게다가, 하나의 도메인으로 학습된 모델은 다른 도메인에 일반화를 잘 하지 못한다. [24]
  • paraphrasing으로부터 이점이 있는 도메인과 어플리케이션의 방대함은 unsupervised parphrasing으로 확장시킬 수 있는 이점이 있고, 이는 여전히 초기단계이다.
  • 여기에는 관련있는 VAE, Constrained Sentence Genration by Metropolis-Hastings Sampling (CGMH), Unsupervised Paraphrasing by Simulated Annealing (UPSA)와 같은 몇 가지 unsuperivsed paraphrasing 관련 연구가 있다.
  • unsupervised 접근법은 믿을만한 결과들을 보여줌에도 불구하고, VAE와 CGMH와 같은 접근법을 기반으로한 probabilistic sampling은 여전히 제약이 적고, 그들은 입력과 semantic similarity가 적은 paraphrases을 생성한다.
  • 반면에 UPSA [26]는 전체 문장 공간을 효과적으로 탐색하지 못하므로 입력과 충분히 다르지 않은 의역이 발생합니다.
  • Atari 게임, 알파제로, supervised paraphrasing의 넓은 범위에서 Deep Reinforcement Learning (DRL)의 성공이후 DRL은 또한 unsupervised parphrase 생성의 성능을 향상 시킬 수 있을까?
  • 우리가 아는한, unsupervised paraphrase generation에서 DRL을 적용하는 첫 연구는 다음의 이유때문에 어려웠다.
    • (i) DRL은 random policy에서 (예. random exploration strategy) 시작할 때, 많은 vocabulary 크기에 대해 잘작동하지 않는다고 알려져있다. [10, 23]
    • (ii) paraphrasing은 multi-step (word-by-word) 예측 테스크이고, 앞서 타입스텝에서 작은 오류는 next 토큰 예측에 합쳐지므로 문장의 남은 부분에 대한 poor prediction을 이끌 수 있다.
    • (iii) parallel sentences에 접근없이, 모든 좋은 paraphrase의 특성을 결합한 reward function을 정의하기가 어렵다.
  • 우리의 제안한 방법인, Progressive Unsupervised Paraphrasing (PUP)은 점진적으로 unsupervised paraphrasing을 위한 DRL 기반의 모델을 학습하고 앞의 3개 챌린지들을 다음의 테크닉으로 설명한다.

  • 1) Unsupervised warm-start of DRL
    • PUP는 pre-training phase에서 expert 역할을 하는 unsupervised pre-trained VAE에 의해 강화 학습을 warm-start합니다.
    • pre-trained VAE는 초기 학습 단계동안 비싼 global exploration으로부터 DRL 모델을 저장한다.
    • 놀랍게도, 제안된 기술은 unsupervised model으로 성공적으로 wart-start DRL을 하는 첫 번째 예시이다.
    • DRL 학습의 긑에서, 우리의 DRL 모델은 초기 VAE 모델과 비교하여 54% 높은 reward을 달성한다.
    • 우리는 unsupervised 방식으로 DRL 모델을 warm-starting하는 아이디어가 제한된 labels로 더 넓은 NLP 문제에 영향을 미칠 수 있다고 기대합니다.
  • 2) Progressive transition for seq2seq DRL
    • 다른 DRL 모델들의 주요 이슈는 future tokens의 예측에 에러들이 축적이 되는 것이다.
    • 이것은 space의 초기 exploration 동안 특히 중요하다.
    • 이를 극복하기 위해 그림 1과 같이 알고리즘 (예 : VAE에서 DRL로)을 token by token로 전환하여 문제의 seq2seq 특성을 활용하는 progressive transition을 사용합니다.
    • 초기 policy (예. random action)을 따라 actions을 취하는 대신, 모델은 action으로 VAE의 출력을 선택하고나서, 점진적으로 (예. one token per epoch) agent가 DRL policy을 따른 actions을 취하게 한다.
    • 이 기술은 DRL을 높은 보상을 가진 모델로 수렴하는 것을 매우 용이하게하며 DRL 성공의 핵심입니다.
    • 그림보면, VAE로 시작해서 DRL로 한번에 넘어가는게 아니라, 2)단계인 여기서 점진적으로 변해간다는 의미이다.
  • 3) Unsupervised reward function for paraphrasing
    • 우리는 DRL 모델을 위한 새로운 reward function을 제안하고, 이는 no parallel sentences 상황에서 생성된 paraphrases의 퀄리티를 측정할 수 있다.
    • 이것은 paraphrasing 문서에서 정보를 얻은, 좋은 paraphrase의 제일 바람직한 퀄리티들을 결합함으로서 달성된다. [8, 29, 41, 48–50]
    • 우리의 reward function은 semantic adequacy, language fluecny, 표현의 diversity로 결합된다.
  • 그림1은 PUP의 디코딩 과정을 설명한다.
  • 1) 첫째, DRL 모델의 디코더는 VAE의 샘플을 사용하여 pre-train phase에서 동작을 선택합니다.
  • 2) 그리고나서, transition phase에서, 모델은 점진적으로 그것의 policy을 따라 actions을 취한다. 
  • 3) 마침내, DRL phase에서 모델은 그것의 policy을 완전히 따라서 actions을 취해서 expected reward을 최대화하도록 한다.
  • 예를 들어, 우리의 DRL 모델은 VAE sample "how can i serve in microsoft"로 pre-trained 될 때, 우리의 fully-trained DRL 모델은 놀랍게도 "how do i get a job at microsoft" paraphrase을 생성한다.
  • 우리는 4개의 real datasets에 대해 PUP을 평가하고, SoTA unsupervised paraphrasing 기술들과 비교한다.
    • 우리는 PUP가 모든 standard metrics에서 그들을 능가함을 보여준다.
  • 우리는 또한 human study을 실행하고, 이는 사람 평가자들이 PUP의 paraphrases이 다른 방법의 paraphrases보다 주의깊게 선택된 다양한 평가에서 높은 품질을 가지는 것을 찾아낸다.
  • 게다가, 우리는 domain-adapted models와의 비교를 고려한다.
    • 예. 모델이 supervised seeting에서 Quora와 같은 한 가지 데이터세트로 학습되고나서, unsupervised 방법의 WikiAnswers와 같은 다른 데이터세트로 domain-adapted된 것.
  • 놀랍게도 PUP는 해당되는 경우 데이터 세트에서 domain-adapted supervised paraphrasing 방법을 능가합니다.

2 BACKGROUND

2.1 Encoder-Decoder Framework 


2.2 VAE: Variational Autoencoder

  • VAE [19, 35] is a deep generative model for learning a nonlinear latent representation z from data points X. 
  • It is trained in an unsupervised fashion for the following loss function:
  • p(z) is prior distribution, i.e., standard normal distribution N(0, I)

3 OVERVIEW OF PUP

  • 이 섹션은 PUP의 progressive training phrase의 오버뷰를 보여준다.
  • 이것은 3가지 phases로 구성된다: pre-train, progressive transition, and DRL. 
  • 1) Pre-train phase
    • unsupervised paraphrasing과 같은 task에 대해, 큰 vocabulary은 DRL 모델들의 학습과정을 방해한다.
    • 이것은 reward 단독으로 모델을 학습하는 것은 실질적으로 불가능하다.
    • 이 이슈를 해결하기 위해, 우리는 pre-trained VAE (non-parallel 코퍼스로 학습된)을 제공하여 DRL 모델을 warm-start한다.
    • 즉, VAE의 출력은 agent policy의 출력 대신에, action sequences을 고르는데 사용된다.
    • 우리는 expert가 unsupervised 모델이고 expert의 (VAE의) actions의 DRL에 시연하는 것으로 생각할 수 있다.
  • 2) Progressive transition phase
    • 다음으로 중요한 단계는, expert의 actions에서 policy (DRL 디코더의 분포)에 따라 actions을 따르는 것으로 점점 transition하는 것이다.
    • 갑작스러운 transition은 task의 특성, 즉 오류가 누적되는 multi-step 예측으로 인해 학습 프로세스를 방해할 수 있다.
    • 특별히, 문장의 초기 스테이지에서 부적절한 sample은 (예. 첫 번째 몇 개 단어들) poor paraphrase 생성으로 이끌 수 있다. (예. ungrammatical or semantically unfaithful)
    • 우리는 직관적인 방법으로 우선 VAE의 출력으로부터 max(0,m −ω) 토큰들을 뽑고 agent policy에 따라 나머지를 고른다.
      • 이 때 m은 생성된 문장의 길이이고 ω는 epoch 숫자이다.
      • 즉 앞 부분은 VAE의 출력을 사용하고 뒷 부분은 DRL의 출력을 사용하는데, VAE의 출력을 max(0,m −ω) 만큼만 사용한다는 것
    • 게다가, 우리는 VAE의 출력을 decoder의 next time-step에 decreasing probability δ을 가지고 전달하고 (확률은 ω에 따라 감소) 그렇지 않으면 DRL의 출력을 전달한다.
      • 즉, teacher forcing+no teacher forcing을 합한 soft embedidng의 개념을 말하는거 같음
      • VAE의 출력의 단어를 확률 δ만큼, DRL의 출력 단어를 확률 1-δ만큼 전달한는 것
    • 이는 특히 모델이 실수할 것으로 예상되는 transition phase의 시작에서 오류 누적을 완화하는 데 도움이됩니다.
  • 3) DRL phase
    • 마침내, 모델은 expected reward을 최대화하도록 policy을 따라 샘플링한 문장에의해 optimized policy을 생성하도록 학습된다.
    • reward는 semantic adequacy, language fluecny, 표현의 diversity의 조합이다.
    • 그림 2는 DRL 패러다임의 오버뷰이고, action sequences은 다른 phase에 따라 VAE의 출력 혹은 agent policy (highlighted by red dashed arrows) 중에서 뽑힌다.

4 PROGRESSIVE UNSUPERVISED PARAPHRASING (PUP)

  • We first describe how to incorporate DRL for the unsupervised paraphrasing task, then the proposed reward function, and finally we describe the details of PUP.

4.1 Reinforcement Learning Paradigm

  • unsupervised paraphrasing의 RL 패러다임은 그림2에서 설명한다.
  • DRL에서, encoder-decoder 모델은 agent로 행동하며, 이는 입력 문장 X을 인코딩하여 paraphrased version 을 생성한다.
  • action, policy)
    • time-step i에서, agent는 을 policy 을 따라 action을 취하고 (equation 1), V는 가능한 action space을 표현한다. (예. 생성을 위한 vocabulary)
  • state) 
    • 인코더의 hidden state와 디코더의 이전 outputs이 state을 결정한다.
  • agent(예. 모델)은 <eos> 토큰이 생성될때까지 time에 한 token을 생성하고, 이는 action sequence 을 (예. trajectory) 완성한다. 
  • policy는 action sequences을 위한 expected reward r을 최대화하도록 optimized된다.

4.2 Paraphrasing Reward

  • 번역 혹은 paraphrasing에서 자동 평가 메트릭에서 BLEU [32], Rouge [18], TER [40], and METEOR [2]은 오직 parallel sentences가 (예. target or references) 있을때만 작동가능하다.
  • 우리는 좋은 paraphrase의 모든 특성을 통합하고 병렬 문장을 필요로하지 않는 새로운 reward 함수를 제안합니다.
  • 대부분 요구되는 good paraphrase는 [8, 29, 41, 48–50] 다음을 포함한다.
    • semantic adequacy (i.e., similarity in meaning), 
    • language fluency (i.e., grammatical correctness), 
    • and diversity of expression (i.e., sentence dissimilarity). 
  • 우리는 위의 요소들의 조합으로 입력 X에대해 DRL 모델이 생성한 출력 sequence 의 reward r(X,)을 정의한다.
    • 은 ∈ [0, 1]이다.
    • 은 입력 X와 생성된 paraphrase 사이의 semantic similarity이다.
    • 는 생성된 문장 가 문법적으로 옳바른지 아닌지를 잡아낸다.
    • 은 X와 사이의 diversity을 측정한다.
    •  ∈ [0, 1] 는 각각 weights이다.
  • Semantic Adequacy:
    • semantic adequacy reward 은 생성된 paraphrase 가 입력 시퀀스 X와 유사한 의미인지를 확인한다.
    • 우리는 universal sentence encoder [7]을 사용하고, 이것은 STS 벤치마크에서 semantic textual similarity의 SoTA 결과를 달성하고 이것은 어떠한 implementation에서도 통합할 수 있게 제공한다.
    • 간단히 말해서 DAN (Deep Averaging Network) 인코더로 훈련되고 임의 길이 문장에 대해 512 차원 임베딩 벡터를 생성합니다.
    • 그리고나서, semantic similarity은 vectors 와 사이의 cosine similarity을 계산하고, 벡터들은 각 문장들의 embedding vectors이다.

  • Language Fluency:
    • fluency reward 는 생성된 paraphrase 의 문법 정확성을 측정한다.
    • n-grams [16]와 neural models와 같은 LMs은 이전의 tokens가 주어졌을 때 다음 token을 예측하도록 학습되기 때문에, 그들은 문장 fluency을 score 매길 때 사용될 수 있다.
    • 최근에, Corpus of Linguistic Acceptability (CoLA)은 in-domain뿐만 아니라, out-of-domain test sets의 grammatical acceptability에 대한 SoTA을 생성했다.
    • 가장 간단한 형태로 CoLA [45]는 ELMo-Style (Embeddings from Language Models)과 pooling classifier를 사용하며 supervised fashion으로 훈련됩니다.
    • We use a pre-trained CoLA [45] to score our generated paraphrased sequences 
  • Expression Diversity:
    • expression diversity reward 는 모델이 입력 시퀀스 X에 없는 tokens을 생성하도록 격려한다.
    • diversity을 계산하기 가장 간단한 방법중 하나는, inverse Jaccard similarity (즉, 1-Jaccard Similarity)가 사용될 수 있다. 
    • 이 연구에서, 우리는 n-grams dissimilarity을 사용한다.
    • diversity을 측정하기 위해, 우리는 입력 시퀀스 X와 생성된 시퀀스 사이의 inverse BLEU을 측정하고 ,이는 1-BLEU(X,)로 계산된다.
    • 에서 uni-gram과 bi-gram inverse BLEU scores의 평균이 사용된다.
  • Combining the three components:
    • 실제로, reward function은 DRL 모델이 좋은 퀄리티 paraphrases을 생성하게해서 reward 요소들 (semantic similarity, fluency, and diversity)의 좋은 밸런스를 유지하게 한다.
    • 예를 들어, semantic adequacy이나 fluency을 너무 많이 잃는 대신 다양한 단어를 생성하는 것은 바람직하지 않습니다.
    • 유사하게, 입력 문장을 복사하는 것은 paraphrase가 아니다. (cosine similarity=1)
    • 이를 달성하기 위해, 우리는 reward functiond을 아래처럼 엄격한 기준을 부과한다.
  • Equation 5은 모델이 입력 문장을 복사하지 않고 생성해서 표현의 다양성을 부과하고 (<), 이는 입력과 낮은 similarity을 가지는 랜덤 문장을 생성하지 않는다. (>)
    • 즉 similarity가 너무 낮거나, 너무 크지 않게 한다는 것
  • Equation 6 은 생성이 fluenct하지 못하면 penalty을 준다.
    • fleucny가 너무 낮으면 아예 0으로 처리해서 penalty을 준다는 것
  • 마지막으로, 다양한 단어들은 (식 7) 생성된 문장이 합리적인 semantic similarity와 fluency 점수를 가질때만 reward을 가진다.
    • 즉, 식5, 식6에서 조건이 통과되어야만 reward을 준다는 것. 왜냐하면 similarity나 fluency가 이상한데, 단어가 다르다고 높은 점수를 주면 안되기 때문
  • 모델이 다양한 문장들 뿐아니라 fluent와 semantically가 입력과 유사하게 생성하도록  policy을 배우기 위해, 다양하게 표현된 출력 문장은 fluent하지 않거나, 입력 문장과 의미가 유사하지 않으면  penalization이 필요하다.
  • 모든 제약 조건을 결합하는 목적은 모든 메트릭에서 경쟁력있는 출력을 보장하고 모든 메트릭에서 poor generation에 대한 penalty를 모델에 주는 것이다.
  • rewward에 대한 각 요소의 weights()와 threshold()은 어플리케이션 요구를 의존하여 정해진다.

4.3 Progressively Training the DRL

  • 학습 알고리즘은 policy을 (encoder-decoder 모델의 distribution ) 최적화하여 생성된 action sequence 에 대해 expected reward 을 최대화하는 것이다.
  • 가능한 action sequences으로부터 single sample에 대한 loss는 다음과 같다.
    • 즉, 모델로부터 (=policy에 따른) 생성된 sequence에 대해 reward의 -값을 붙인 것으로 보면 된다.
    • loss는 action sequences에 대해 negative expected eward이다. 
    • 근데, 내가 봤던 RL으로 LM 학습할 때 보통 reward에 -sum(log(토큰확률))을 곱한것을 loss로 하여 학습하는 것인데 여기서는?
  • 무한히 가능한 샘플들의 수는 예상 계산을 불가능하게하므로 근사치입니다 [46].
  • The gradient for the  is:
  • DRL 기반 unsupervised paraphrase generation 모델에 대한 교육 과정은 알고리즘 1에 요약되어 있습니다. 
  • 아래의 각 교육 단계에 대해 설명합니다. 
  • pre-trained VAE와 DRL 모델은 동일한 vocabulary를 공유합니다.
  • Pre-train Phase: 
    • 사전 교육은 DRL이 실제로 작동하는 데 중요한 단계입니다. 
    • 이 작업의 주요 공헌 중 하나는 의역 생성 작업을 위해 DRL이 순전히 감독되지 않은 방식으로 작동하도록하는 것이므로 사전 교육 단계도 감독되지 않아야합니다.
    • 우리는 감독되지 않은 방식으로 훈련 된 VAE [5]를 사용하고 감독되지 않은 의역 생성 작업 [30]에서 적절한 기준 역할을합니다. 
    • 사전 훈련 된 VAE (섹션 2.2)는 사전 훈련 단계의 전문가로서 웜 스타트를 제공합니다.
    • 알고리즘 1의 라인 6은 사전 훈련 단계를 나타냅니다. 
    • 시간 단계 i에서 알고리즘은 VAE의 샘플 si를 작업 yˆi로 선택합니다.
    • 손실 L (θ)이 계산되고 누적됩니다 (알고리즘 1의 12 행 참조).
    • 일단 액션 시퀀스가 완료되면 (즉, (yˆ1, yˆ2, · · ·, yˆm)) 보상 r이 계산되고 매개 변수 θ가 업데이트됩니다 (13 행).
    • 이 단계는 DRL 모델이 감독되지 않은 패러 프레이징을 위해 실제로 작동하기위한 필수 조건입니다.
  • Transition Phase: 
    • 모델이 합리적인 문장을 생성 할 수있게되면 다음 중요한 단계는 에이전트 (예 : 인코더-디코더 모델)가 정책에 따라 조치를 취할 수 있도록 점진적으로 허용하는 것입니다.
    • 알고리즘 1의 5 행은 PDRL 정책에 따라 조치를 취할 것인지 VAE의 출력 S를 활용할 것인지를 나타냅니다.
    • 첫 번째 max (0, m − ω) 토큰은 VAE에서 선택되고 나머지는 시간 단계 i에서 PDRL (yˆi | h ′ i, yˆi−1) 정책에 따라 샘플링됩니다. 여기서 m은 세대의 길이입니다. (즉, 동작 시퀀스) 및 ω는 에포크 번호입니다.
    • 이런 식으로 모델은 0 시대의 VAE에서 모든 토큰을 선택하고 1 시대의 경우 모델은 정책에 따라 마지막 토큰 만 선택할 수 있습니다.
    • 마찬가지로, 에포크 m까지 모델은 정책에 따라 모든 토큰을 선택하고 VAE에서는 선택하지 않습니다.
    • 이 점진적인 토큰 별 전환의 배후에있는 직관은 이전 토큰 (즉, 문장 시작 부분의 단어)에서의 실수는 치명적일 수 있으며 마지막 몇 개의 토큰을 선택하는 것은 비교적 쉽다는 것입니다.
    • 또한 모델이 가능한 한 빨리 정책에 따라 선택하도록 허용하는 것도 필요하므로 점진적 전환을 사용합니다.
    • DRL 모델이 전환 단계의 초기 단계에서 정책에 따라 선택하도록 허용하므로 모델은 실수를 할 수 있습니다.
    • 그러나 다음 예측에서 이러한 오류가 복합적으로 발생하면 높은 보상을 받을 수 있는 충분히 좋은 샘플을 생성하지 못할 수 있습니다.
    • 알고리즘 1의 3-4 행은 VAE의 이전 토큰 Si-1을 시간 단계 i에서 확률로 δ = siдmoid (m − i − ω / l)) ∈ [0, 1], 여기서 m은 출력 문장의 길이, ω는 에포크 수, l은 ω가 커짐에 따라 확률 δ를 감소시키는 감속 인자입니다.
    • 위의 점진적 전환과 유사하지만 l 배 더 느리고 확률 적입니다.
    • 느린 점진적 전환의 배후에있는 직관은 DRL 모델이 잘못된 토큰을 샘플링하는 경우 VAE의 출력을 다가오는 시간 단계의 디코더로 전달하면 전환 단계의 시작 부분에서 누적되는 오류를 제거 할 수 있다는 것입니다.
  • DRL Phase: 
    • DRL 단계는 에이전트가 정책 PDRL에 따라 Yˆ 조치를 취하고 보상 r을 받고 정책을 최적화하여 예상 보상을 극대화하는 고전적인 강화 학습입니다.
    • 탐욕스러운 디코딩은 우주 탐험을 방해하는 반면, 지속적인 탐험은 바람직한 행동이 아닙니다.
    • 탐사 (예 : 샘플)와 착취 (예 : argmax) 사이의 균형을 유지하기 위해 확률 ϵ = κ ω로 탐사에 확률 적 붕괴 메커니즘을 사용합니다. 여기서 κ ∈ [0, 1]은 붕괴율을 제어하는 상수입니다. ω가 증가함에 따라 확률 ϵ의.
    • 알고리즘 1의 7-11 행은이 단계를 참조합니다. 사전 훈련 된 VAE는이 단계에서 기준 모델로 사용됩니다.

5 EXPERIMENTAL SETUP 

  • In this section, we describe the datasets, competing approaches, evaluation metrics, and the implementation details of PUP.

5.1 Dataset

6 RESULTS 

6.1 Automatic Metrics

6.2 Subjective Human Evaluations

6.3 Evaluation on Reward Function

8 CONCLUSION AND FUTURE WORK

  • 우리는 점진적인 방법을 제시하여 DRL-based unsupervised paraphrasing 모델을 소개한다.
  • 우리의 방법은 DRL-based 모델을 pre-traeind VAE로 warm-start를 제공한다.
    • VAE는 non-parallel corpus로 학습됨
  • 그리고나서, 우리의 모델은 점진적으로 policy을 따라 VAE의 출력에서 acting으로 점점 transition이 된다.
  • 우리는 소개한 reward function은 좋은 paraphrase의 모든 속성들을 결합하고 parallel sentences을 요구하지 않는다.
  • 우리의 모델로 생성된 paraphrases은 unsupervised paraphrasing와 domain-adapted supervised models에서 automatic metrics에서 SoTA을 달성한다.
  • 구체적으로, 우리의 방법들은 BLEU와 i-BLEU 메트릭에서 SoTA unsupervsed 방법들에비해 90%와 34%의 차이를 얻는다.
  • 게다가, 생성된 paraphrase은 사람 평가에서부터 다음의 기준에서 가장 높은 평가를 얻는다.
    • diversity of expression, 
    • fluency, 
    • semantic similarity to input sentences. 
  • 우리의 기술은 먼저 unsupervised model로 DRL을 성공적으로 warm-start하고, 부족한 레이블이 지정된 훈련 데이터를 사용하여 다른 NLP 문제에 대한 우리 기술의 광범위한 의미를 조사할 계획입니다.

Reference

댓글