◼️ Comment

이 논문의 제목처럼 unsupervised paraphrasing이고 pivoting이 아닌 autoencoder의 느낌으로 진행이 된다.
즉 입력->인코딩->디코딩 인데 이전의 논문과 같이 noise을 주지 않고 재구성하는 것이다.
근데, 단순히 재구성하게 학습을 하는게 아니라, 다른 모델인 VAE을 학습하여 활용하는 것이다.

1) 비병렬 데이터세트로 VAE 모델을 학습한다. (재구성)
2) 본 모델을 학습하기 위해, gold reference로 VAE 모델의 출력을 이용해 학습한다.
3) 본 모델을 reward을 이용하여 학습한다.
어떻게보면, 대화생성에서 가끔 보이는 방법과 같이, 1,2)을 합쳐서 autoencoder 식으로 학습하고 reward를 섞어서 이어서 학습 진행하는 느낌이다.

여기서는 1->2->3으로 가는 과정을 3개의 phase로 나눠서 설명한다.

즉 바로 discrete하게 넘어가는게 아니라, 그림1처럼 action으로 출력할 gold token을 뒤에서 부터 조금씩 바꿔나간다.
이를 transition이라고 부르고 이것의 효과는 이전의 비병렬 패러프레이징의 단점2번을 극복한다고 주장한다.
(i) DRL은 random policy에서 (예. random exploration strategy) 시작할 때, 많은 vocabulary 크기에 대해 잘작동하지 않는다고 알려져있다. [10, 23]
(ii) paraphrasing은 multi-step (word-by-word) 예측 테스크이고, 앞서 타입스텝에서 작은 오류는 next 토큰 예측에 합쳐지므로 문장의 남은 부분에 대한 poor prediction을 이끌 수 있다.
(iii) parallel sentences에 접근없이, 모든 좋은 paraphrase의 특성을 결합한 reward function을 정의하기가 어렵다.

reward는 3가지로 구성된다.

1) USE을 이용한 Semantic Adequacy
2) ELMo을 이용한 Language Fluency
3) i-BLEU을 이용한 Expression Diversity
근데, 여기서 i-BLEU가 1-BLEU 점수인거 같은데 그러면 BLEU와는 역의 관계이다.
실험결과 테이블3을 보면 i-BLEU도 높고 BLEU가 높을 수 있는 것인가?
아마도 i-BLEU는 input과 output의 BLEU 점수를 기반으로 하고 BLEU는 gold references와 output간의 BLEU 점수를 계산한 것 같다.

0 ABSTRACT

Paraphrasing는 유창함을 유지하면서 입력 문장의 의미를 다른 단어들로 표현하는 것이다. (grammatical and syntactical correctness)
paraphrasing에서 대부분 기존의 연구는 특정 도메인에 대해 한계가 있는 supervised models을 사용한다. (예. image captions)
이러한 모델은 다른 도메인으로 간단하게 transferr되거나 잘 일반화 될 수 없으며, 새 도메인에 대한 레이블된 학습 데이터를 만드는 것은 비용과 노력이 많이 듭니다.
서로 다른 도메인에 걸친 패러 paraphrasing의 필요성과 이러한 많은 도메인에서 레이블된 학습 데이터의 부족으로 인해 unsupervised paraphrase generation 방법을 탐색해야합니다.
우리는 Progressive Unsupervised Paraphrasing (PUP)을 제안한다.

deep reinforcement learning (DRL)을 기반으로한 새로운 unsupervised generation 방법

PUP는 variational autoencoder을 (nonparallel 코퍼스를 사용하여 학습된) 사용하여 DRL 모델을 warm-starts하는 seed paraphrase을 생성한다.
그래서, PUP는 우리의 새로운 reward function에 따라 순차적으로 seed paraphrase을 조정한다.

reward는 semantic adequacy, language fluency 그리고 expression diversity measures을 결합하여 parallel sentences없이 각 iteration에서 생성된 paraphrases의 퀄리티를 정량화하여 측정한다.

우리의 광범위한 실험적인 평가는 PUP가 4개의 real datasets에서 automatic metrics와 user 연구들에 관하여 unsupervsied SoTA paraphrasing 기술들을 보여준다.
우리는 또한 PUP가 여러 데이터세트에서 domain-adapted supervseid 알고리즘을 능가한다.
우리의 평가는 또한 PUP가 semantic similarity와 expression의 diversity의 trade-off을 달성함을 보여준다.

1 INTRODUCTION

Paraphrasing은 입력 문장이 주어질 때, 다른 단어들로 같은 의미를 전달하며 유창한 출력 문장을 생성하는 테스크이다.
이것은 summarization, information retrieval, question answering, conversational agents와 같은 많은 어플리케이션와 같은 NLP에서 중요한 문제이다.
이전의 paraphrasing work의 대부분은 supervised paraphrasing 방법들에 집중해왔고, 이는 학습을 위해 많은 parallel sentences의 코퍼스를 요구한다. (예. 입력과 대응되는 paraphrases 문장)
뉴럴 번역기에서 많은 데이터세트와 달리, paraphrasing을 위한 많은 병렬 코퍼스가 없고, 그들은 주로 domain-specific이다.

예. Quora는 questions dataset이고 MSCOCO은 imace captioning dataset이다.

많은 도메인에서 paraphrasing을 위한 큰 병렬 데이터세트을 수집하는 것은 비싸고 힘든 부분이라, 확장가능하지 않다.
게다가, 하나의 도메인으로 학습된 모델은 다른 도메인에 일반화를 잘 하지 못한다. [24]
paraphrasing으로부터 이점이 있는 도메인과 어플리케이션의 방대함은 unsupervised parphrasing으로 확장시킬 수 있는 이점이 있고, 이는 여전히 초기단계이다.
여기에는 관련있는 VAE, Constrained Sentence Genration by Metropolis-Hastings Sampling (CGMH), Unsupervised Paraphrasing by Simulated Annealing (UPSA)와 같은 몇 가지 unsuperivsed paraphrasing 관련 연구가 있다.
unsupervised 접근법은 믿을만한 결과들을 보여줌에도 불구하고, VAE와 CGMH와 같은 접근법을 기반으로한 probabilistic sampling은 여전히 제약이 적고, 그들은 입력과 semantic similarity가 적은 paraphrases을 생성한다.
반면에 UPSA [26]는 전체 문장 공간을 효과적으로 탐색하지 못하므로 입력과 충분히 다르지 않은 의역이 발생합니다.
Atari 게임, 알파제로, supervised paraphrasing의 넓은 범위에서 Deep Reinforcement Learning (DRL)의 성공이후 DRL은 또한 unsupervised parphrase 생성의 성능을 향상 시킬 수 있을까?
우리가 아는한, unsupervised paraphrase generation에서 DRL을 적용하는 첫 연구는 다음의 이유때문에 어려웠다.

(i) DRL은 random policy에서 (예. random exploration strategy) 시작할 때, 많은 vocabulary 크기에 대해 잘작동하지 않는다고 알려져있다. [10, 23]
(ii) paraphrasing은 multi-step (word-by-word) 예측 테스크이고, 앞서 타입스텝에서 작은 오류는 next 토큰 예측에 합쳐지므로 문장의 남은 부분에 대한 poor prediction을 이끌 수 있다.
(iii) parallel sentences에 접근없이, 모든 좋은 paraphrase의 특성을 결합한 reward function을 정의하기가 어렵다.

우리의 제안한 방법인, Progressive Unsupervised Paraphrasing (PUP)은 점진적으로 unsupervised paraphrasing을 위한 DRL 기반의 모델을 학습하고 앞의 3개 챌린지들을 다음의 테크닉으로 설명한다.
1) Unsupervised warm-start of DRL

PUP는 pre-training phase에서 expert 역할을 하는 unsupervised pre-trained VAE에 의해 강화 학습을 warm-start합니다.
pre-trained VAE는 초기 학습 단계동안 비싼 global exploration으로부터 DRL 모델을 저장한다.
놀랍게도, 제안된 기술은 unsupervised model으로 성공적으로 wart-start DRL을 하는 첫 번째 예시이다.
DRL 학습의 긑에서, 우리의 DRL 모델은 초기 VAE 모델과 비교하여 54% 높은 reward을 달성한다.
우리는 unsupervised 방식으로 DRL 모델을 warm-starting하는 아이디어가 제한된 labels로 더 넓은 NLP 문제에 영향을 미칠 수 있다고 기대합니다.

2) Progressive transition for seq2seq DRL

다른 DRL 모델들의 주요 이슈는 future tokens의 예측에 에러들이 축적이 되는 것이다.
이것은 space의 초기 exploration 동안 특히 중요하다.
이를 극복하기 위해 그림 1과 같이 알고리즘 (예 : VAE에서 DRL로)을 token by token로 전환하여 문제의 seq2seq 특성을 활용하는 progressive transition을 사용합니다.
초기 policy (예. random action)을 따라 actions을 취하는 대신, 모델은 action으로 VAE의 출력을 선택하고나서, 점진적으로 (예. one token per epoch) agent가 DRL policy을 따른 actions을 취하게 한다.
이 기술은 DRL을 높은 보상을 가진 모델로 수렴하는 것을 매우 용이하게하며 DRL 성공의 핵심입니다.
그림보면, VAE로 시작해서 DRL로 한번에 넘어가는게 아니라, 2)단계인 여기서 점진적으로 변해간다는 의미이다.

3) Unsupervised reward function for paraphrasing

우리는 DRL 모델을 위한 새로운 reward function을 제안하고, 이는 no parallel sentences 상황에서 생성된 paraphrases의 퀄리티를 측정할 수 있다.
이것은 paraphrasing 문서에서 정보를 얻은, 좋은 paraphrase의 제일 바람직한 퀄리티들을 결합함으로서 달성된다. [8, 29, 41, 48–50]
우리의 reward function은 semantic adequacy, language fluecny, 표현의 diversity로 결합된다.

그림1은 PUP의 디코딩 과정을 설명한다.
1) 첫째, DRL 모델의 디코더는 VAE의 샘플을 사용하여 pre-train phase에서 동작을 선택합니다.
2) 그리고나서, transition phase에서, 모델은 점진적으로 그것의 policy을 따라 actions을 취한다.
3) 마침내, DRL phase에서 모델은 그것의 policy을 완전히 따라서 actions을 취해서 expected reward을 최대화하도록 한다.
예를 들어, 우리의 DRL 모델은 VAE sample "how can i serve in microsoft"로 pre-trained 될 때, 우리의 fully-trained DRL 모델은 놀랍게도 "how do i get a job at microsoft" paraphrase을 생성한다.
우리는 4개의 real datasets에 대해 PUP을 평가하고, SoTA unsupervised paraphrasing 기술들과 비교한다.

우리는 PUP가 모든 standard metrics에서 그들을 능가함을 보여준다.

우리는 또한 human study을 실행하고, 이는 사람 평가자들이 PUP의 paraphrases이 다른 방법의 paraphrases보다 주의깊게 선택된 다양한 평가에서 높은 품질을 가지는 것을 찾아낸다.
게다가, 우리는 domain-adapted models와의 비교를 고려한다.

예. 모델이 supervised seeting에서 Quora와 같은 한 가지 데이터세트로 학습되고나서, unsupervised 방법의 WikiAnswers와 같은 다른 데이터세트로 domain-adapted된 것.

놀랍게도 PUP는 해당되는 경우 데이터 세트에서 domain-adapted supervised paraphrasing 방법을 능가합니다.

2 BACKGROUND

2.1 Encoder-Decoder Framework

2.2 VAE: Variational Autoencoder

VAE [19, 35] is a deep generative model for learning a nonlinear latent representation z from data points X.
It is trained in an unsupervised fashion for the following loss function:
p(z) is prior distribution, i.e., standard normal distribution N(0, I)

3 OVERVIEW OF PUP

이 섹션은 PUP의 progressive training phrase의 오버뷰를 보여준다.
이것은 3가지 phases로 구성된다: pre-train, progressive transition, and DRL.
1) Pre-train phase

unsupervised paraphrasing과 같은 task에 대해, 큰 vocabulary은 DRL 모델들의 학습과정을 방해한다.
이것은 reward 단독으로 모델을 학습하는 것은 실질적으로 불가능하다.
이 이슈를 해결하기 위해, 우리는 pre-trained VAE (non-parallel 코퍼스로 학습된)을 제공하여 DRL 모델을 warm-start한다.
즉, VAE의 출력은 agent policy의 출력 대신에, action sequences을 고르는데 사용된다.
우리는 expert가 unsupervised 모델이고 expert의 (VAE의) actions의 DRL에 시연하는 것으로 생각할 수 있다.

2) Progressive transition phase

다음으로 중요한 단계는, expert의 actions에서 policy (DRL 디코더의 분포)에 따라 actions을 따르는 것으로 점점 transition하는 것이다.
갑작스러운 transition은 task의 특성, 즉 오류가 누적되는 multi-step 예측으로 인해 학습 프로세스를 방해할 수 있다.
특별히, 문장의 초기 스테이지에서 부적절한 sample은 (예. 첫 번째 몇 개 단어들) poor paraphrase 생성으로 이끌 수 있다. (예. ungrammatical or semantically unfaithful)
우리는 직관적인 방법으로 우선 VAE의 출력으로부터 max(0,m −ω) 토큰들을 뽑고 agent policy에 따라 나머지를 고른다.

이 때 m은 생성된 문장의 길이이고 ω는 epoch 숫자이다.
즉 앞 부분은 VAE의 출력을 사용하고 뒷 부분은 DRL의 출력을 사용하는데, VAE의 출력을 max(0,m −ω) 만큼만 사용한다는 것

게다가, 우리는 VAE의 출력을 decoder의 next time-step에 decreasing probability δ을 가지고 전달하고 (확률은 ω에 따라 감소) 그렇지 않으면 DRL의 출력을 전달한다.

즉, teacher forcing+no teacher forcing을 합한 soft embedidng의 개념을 말하는거 같음
VAE의 출력의 단어를 확률 δ만큼, DRL의 출력 단어를 확률 1-δ만큼 전달한는 것

이는 특히 모델이 실수할 것으로 예상되는 transition phase의 시작에서 오류 누적을 완화하는 데 도움이됩니다.

3) DRL phase

마침내, 모델은 expected reward을 최대화하도록 policy을 따라 샘플링한 문장에의해 optimized policy을 생성하도록 학습된다.
reward는 semantic adequacy, language fluecny, 표현의 diversity의 조합이다.
그림 2는 DRL 패러다임의 오버뷰이고, action sequences은 다른 phase에 따라 VAE의 출력 혹은 agent policy (highlighted by red dashed arrows) 중에서 뽑힌다.

4 PROGRESSIVE UNSUPERVISED PARAPHRASING (PUP)

We first describe how to incorporate DRL for the unsupervised paraphrasing task, then the proposed reward function, and finally we describe the details of PUP.

4.1 Reinforcement Learning Paradigm

unsupervised paraphrasing의 RL 패러다임은 그림2에서 설명한다.
DRL에서, encoder-decoder 모델은 agent로 행동하며, 이는 입력 문장 X을 인코딩하여 paraphrased version $\hat{Y}$ 을 생성한다.
action, policy)

time-step i에서, agent는 $\hat{y}_i \in V$ 을 policy $P_{DRL}(\hat{y}_i|\hat{y}_{1:i-1},X)$ 을 따라 action을 취하고 (equation 1), V는 가능한 action space을 표현한다. (예. 생성을 위한 vocabulary)

state)

인코더의 hidden state와 디코더의 이전 outputs이 state을 결정한다.

agent(예. 모델)은 <eos> 토큰이 생성될때까지 time에 한 token을 생성하고, 이는 action sequence $\hat{Y} = (\hat{y}_1, \hat{y}_2, ... , \hat{y}_m)$ 을 (예. trajectory) 완성한다.
policy는 action sequences을 위한 expected reward r을 최대화하도록 optimized된다.

4.2 Paraphrasing Reward

번역 혹은 paraphrasing에서 자동 평가 메트릭에서 BLEU [32], Rouge [18], TER [40], and METEOR [2]은 오직 parallel sentences가 (예. target or references) 있을때만 작동가능하다.
우리는 좋은 paraphrase의 모든 특성을 통합하고 병렬 문장을 필요로하지 않는 새로운 reward 함수를 제안합니다.
대부분 요구되는 good paraphrase는 [8, 29, 41, 48–50] 다음을 포함한다.

semantic adequacy (i.e., similarity in meaning),
language fluency (i.e., grammatical correctness),
and diversity of expression (i.e., sentence dissimilarity).

우리는 위의 요소들의 조합으로 입력 X에대해 DRL 모델이 생성한 출력 sequence $\hat{Y}$ 의 reward r(X, $\hat{Y}$ )을 정의한다.

$r_{Sim}(X,\hat{Y})$ , $r_{F}(\hat{Y})$ , $r_{D}(X,\hat{Y})$ 은 ∈ [0, 1]이다.
$r_{Sim}(X,\hat{Y})$ 은 입력 X와 생성된 paraphrase $\hat{Y}$ 사이의 semantic similarity이다.
$r_{F}(\hat{Y})$ 는 생성된 문장 $\hat{Y}$ 가 문법적으로 옳바른지 아닌지를 잡아낸다.
$r_{D}(X,\hat{Y})$ 은 X와 $\hat{Y}$ 사이의 diversity을 측정한다.
$\alpha$ , $\beta$ , $\gamma$ ∈ [0, 1] 는 각각 weights이다.

Semantic Adequacy:

semantic adequacy reward $r_{Sim}(X,\hat{Y})$ 은 생성된 paraphrase $\hat{Y}$ 가 입력 시퀀스 X와 유사한 의미인지를 확인한다.
우리는 universal sentence encoder [7]을 사용하고, 이것은 STS 벤치마크에서 semantic textual similarity의 SoTA 결과를 달성하고 이것은 어떠한 implementation에서도 통합할 수 있게 제공한다.
간단히 말해서 DAN (Deep Averaging Network) 인코더로 훈련되고 임의 길이 문장에 대해 512 차원 임베딩 벡터를 생성합니다.
그리고나서, semantic similarity은 vectors $v_X$ 와 $v_Y$ 사이의 cosine similarity을 계산하고, 벡터들은 각 문장들의 embedding vectors이다.

Language Fluency:

fluency reward $r_{F}(\hat{Y})$ 는 생성된 paraphrase $\hat{Y}$ 의 문법 정확성을 측정한다.
n-grams [16]와 neural models와 같은 LMs은 이전의 tokens가 주어졌을 때 다음 token을 예측하도록 학습되기 때문에, 그들은 문장 fluency을 score 매길 때 사용될 수 있다.
최근에, Corpus of Linguistic Acceptability (CoLA)은 in-domain뿐만 아니라, out-of-domain test sets의 grammatical acceptability에 대한 SoTA을 생성했다.
가장 간단한 형태로 CoLA [45]는 ELMo-Style (Embeddings from Language Models)과 pooling classifier를 사용하며 supervised fashion으로 훈련됩니다.
We use a pre-trained CoLA [45] to score our generated paraphrased sequences $\hat{Y}$ .

Expression Diversity:

expression diversity reward $r_{D}(X,\hat{Y})$ 는 모델이 입력 시퀀스 X에 없는 tokens을 생성하도록 격려한다.
diversity을 계산하기 가장 간단한 방법중 하나는, inverse Jaccard similarity (즉, 1-Jaccard Similarity)가 사용될 수 있다.
이 연구에서, 우리는 n-grams dissimilarity을 사용한다.
diversity을 측정하기 위해, 우리는 입력 시퀀스 X와 생성된 시퀀스 $\hat{Y}$ 사이의 inverse BLEU을 측정하고 ,이는 1-BLEU(X, $\hat{Y}$ )로 계산된다.
$r_{D}(X,\hat{Y})$ 에서 uni-gram과 bi-gram inverse BLEU scores의 평균이 사용된다.

Combining the three components:

실제로, reward function은 DRL 모델이 좋은 퀄리티 paraphrases을 생성하게해서 reward 요소들 (semantic similarity, fluency, and diversity)의 좋은 밸런스를 유지하게 한다.
예를 들어, semantic adequacy이나 fluency을 너무 많이 잃는 대신 다양한 단어를 생성하는 것은 바람직하지 않습니다.
유사하게, 입력 문장을 복사하는 것은 paraphrase가 아니다. (cosine similarity=1)
이를 달성하기 위해, 우리는 reward functiond을 아래처럼 엄격한 기준을 부과한다.

Equation 5은 모델이 입력 문장을 복사하지 않고 생성해서 표현의 다양성을 부과하고 ( $r_{Sim}(X,\hat{Y})$ < $\tau_{max}$ ), 이는 입력과 낮은 similarity을 가지는 랜덤 문장을 생성하지 않는다. ( $r_{Sim}(X,\hat{Y})$ > $\tau_{min}$ )

즉 similarity가 너무 낮거나, 너무 크지 않게 한다는 것

Equation 6 은 생성이 fluenct하지 못하면 penalty을 준다.

fleucny가 너무 낮으면 아예 0으로 처리해서 penalty을 준다는 것

마지막으로, 다양한 단어들은 (식 7) 생성된 문장이 합리적인 semantic similarity와 fluency 점수를 가질때만 reward을 가진다.

즉, 식5, 식6에서 조건이 통과되어야만 reward을 준다는 것. 왜냐하면 similarity나 fluency가 이상한데, 단어가 다르다고 높은 점수를 주면 안되기 때문

모델이 다양한 문장들 뿐아니라 fluent와 semantically가 입력과 유사하게 생성하도록 policy을 배우기 위해, 다양하게 표현된 출력 문장은 fluent하지 않거나, 입력 문장과 의미가 유사하지 않으면 penalization이 필요하다.
모든 제약 조건을 결합하는 목적은 모든 메트릭에서 경쟁력있는 출력을 보장하고 모든 메트릭에서 poor generation에 대한 penalty를 모델에 주는 것이다.
rewward에 대한 각 요소의 weights( $\alpha$ , $\beta$ , $\gamma$ )와 threshold( $\tau_{max}$ , $\tau_{min}$ , $\lambda_{min}$ )은 어플리케이션 요구를 의존하여 정해진다.

4.3 Progressively Training the DRL

학습 알고리즘은 policy을 (encoder-decoder 모델의 distribution $P_{DRL}(.|X)$ ) 최적화하여 생성된 action sequence $\hat{Y} = (\hat{y}_1,\hat{y}_2, ... ,\hat{y}_m).$ 에 대해 expected reward $r(.)$ 을 최대화하는 것이다.
가능한 action sequences으로부터 single sample에 대한 loss는 다음과 같다.

즉, 모델로부터 (=policy에 따른) 생성된 sequence에 대해 reward의 -값을 붙인 것으로 보면 된다.
loss는 action sequences에 대해 negative expected eward이다.
근데, 내가 봤던 RL으로 LM 학습할 때 보통 reward에 -sum(log(토큰확률))을 곱한것을 loss로 하여 학습하는 것인데 여기서는?

무한히 가능한 샘플들의 수는 예상 계산을 불가능하게하므로 근사치입니다 [46].
The gradient for the $L(\theta)$ is:

DRL 기반 unsupervised paraphrase generation 모델에 대한 교육 과정은 알고리즘 1에 요약되어 있습니다.

아래의 각 교육 단계에 대해 설명합니다.
pre-trained VAE와 DRL 모델은 동일한 vocabulary를 공유합니다.
Pre-train Phase:

사전 교육은 DRL이 실제로 작동하는 데 중요한 단계입니다.
이 작업의 주요 공헌 중 하나는 의역 생성 작업을 위해 DRL이 순전히 감독되지 않은 방식으로 작동하도록하는 것이므로 사전 교육 단계도 감독되지 않아야합니다.
우리는 감독되지 않은 방식으로 훈련 된 VAE [5]를 사용하고 감독되지 않은 의역 생성 작업 [30]에서 적절한 기준 역할을합니다.
사전 훈련 된 VAE (섹션 2.2)는 사전 훈련 단계의 전문가로서 웜 스타트를 제공합니다.
알고리즘 1의 라인 6은 사전 훈련 단계를 나타냅니다.
시간 단계 i에서 알고리즘은 VAE의 샘플 si를 작업 yˆi로 선택합니다.
손실 L (θ)이 계산되고 누적됩니다 (알고리즘 1의 12 행 참조).
일단 액션 시퀀스가 완료되면 (즉, (yˆ1, yˆ2, · · ·, yˆm)) 보상 r이 계산되고 매개 변수 θ가 업데이트됩니다 (13 행).
이 단계는 DRL 모델이 감독되지 않은 패러 프레이징을 위해 실제로 작동하기위한 필수 조건입니다.

Transition Phase:

모델이 합리적인 문장을 생성 할 수있게되면 다음 중요한 단계는 에이전트 (예 : 인코더-디코더 모델)가 정책에 따라 조치를 취할 수 있도록 점진적으로 허용하는 것입니다.
알고리즘 1의 5 행은 PDRL 정책에 따라 조치를 취할 것인지 VAE의 출력 S를 활용할 것인지를 나타냅니다.
첫 번째 max (0, m − ω) 토큰은 VAE에서 선택되고 나머지는 시간 단계 i에서 PDRL (yˆi | h ′ i, yˆi−1) 정책에 따라 샘플링됩니다. 여기서 m은 세대의 길이입니다. (즉, 동작 시퀀스) 및 ω는 에포크 번호입니다.
이런 식으로 모델은 0 시대의 VAE에서 모든 토큰을 선택하고 1 시대의 경우 모델은 정책에 따라 마지막 토큰 만 선택할 수 있습니다.
마찬가지로, 에포크 m까지 모델은 정책에 따라 모든 토큰을 선택하고 VAE에서는 선택하지 않습니다.
이 점진적인 토큰 별 전환의 배후에있는 직관은 이전 토큰 (즉, 문장 시작 부분의 단어)에서의 실수는 치명적일 수 있으며 마지막 몇 개의 토큰을 선택하는 것은 비교적 쉽다는 것입니다.
또한 모델이 가능한 한 빨리 정책에 따라 선택하도록 허용하는 것도 필요하므로 점진적 전환을 사용합니다.
DRL 모델이 전환 단계의 초기 단계에서 정책에 따라 선택하도록 허용하므로 모델은 실수를 할 수 있습니다.
그러나 다음 예측에서 이러한 오류가 복합적으로 발생하면 높은 보상을 받을 수 있는 충분히 좋은 샘플을 생성하지 못할 수 있습니다.
알고리즘 1의 3-4 행은 VAE의 이전 토큰 Si-1을 시간 단계 i에서 확률로 δ = siдmoid (m − i − ω / l)) ∈ [0, 1], 여기서 m은 출력 문장의 길이, ω는 에포크 수, l은 ω가 커짐에 따라 확률 δ를 감소시키는 감속 인자입니다.
위의 점진적 전환과 유사하지만 l 배 더 느리고 확률 적입니다.
느린 점진적 전환의 배후에있는 직관은 DRL 모델이 잘못된 토큰을 샘플링하는 경우 VAE의 출력을 다가오는 시간 단계의 디코더로 전달하면 전환 단계의 시작 부분에서 누적되는 오류를 제거 할 수 있다는 것입니다.

DRL Phase:

DRL 단계는 에이전트가 정책 PDRL에 따라 Yˆ 조치를 취하고 보상 r을 받고 정책을 최적화하여 예상 보상을 극대화하는 고전적인 강화 학습입니다.
탐욕스러운 디코딩은 우주 탐험을 방해하는 반면, 지속적인 탐험은 바람직한 행동이 아닙니다.
탐사 (예 : 샘플)와 착취 (예 : argmax) 사이의 균형을 유지하기 위해 확률 ϵ = κ ω로 탐사에 확률 적 붕괴 메커니즘을 사용합니다. 여기서 κ ∈ [0, 1]은 붕괴율을 제어하는 상수입니다. ω가 증가함에 따라 확률 ϵ의.
알고리즘 1의 7-11 행은이 단계를 참조합니다. 사전 훈련 된 VAE는이 단계에서 기준 모델로 사용됩니다.

5 EXPERIMENTAL SETUP

In this section, we describe the datasets, competing approaches, evaluation metrics, and the implementation details of PUP.

5.1 Dataset

6 RESULTS

6.1 Automatic Metrics

6.2 Subjective Human Evaluations

6.3 Evaluation on Reward Function

8 CONCLUSION AND FUTURE WORK

우리는 점진적인 방법을 제시하여 DRL-based unsupervised paraphrasing 모델을 소개한다.
우리의 방법은 DRL-based 모델을 pre-traeind VAE로 warm-start를 제공한다.

VAE는 non-parallel corpus로 학습됨

그리고나서, 우리의 모델은 점진적으로 policy을 따라 VAE의 출력에서 acting으로 점점 transition이 된다.
우리는 소개한 reward function은 좋은 paraphrase의 모든 속성들을 결합하고 parallel sentences을 요구하지 않는다.
우리의 모델로 생성된 paraphrases은 unsupervised paraphrasing와 domain-adapted supervised models에서 automatic metrics에서 SoTA을 달성한다.
구체적으로, 우리의 방법들은 BLEU와 i-BLEU 메트릭에서 SoTA unsupervsed 방법들에비해 90%와 34%의 차이를 얻는다.
게다가, 생성된 paraphrase은 사람 평가에서부터 다음의 기준에서 가장 높은 평가를 얻는다.

diversity of expression,
fluency,
semantic similarity to input sentences.

우리의 기술은 먼저 unsupervised model로 DRL을 성공적으로 warm-start하고, 부족한 레이블이 지정된 훈련 데이터를 사용하여 다른 NLP 문제에 대한 우리 기술의 광범위한 의미를 조사할 계획입니다.

Reference

https://arxiv.org/pdf/2007.02244.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-107, Unsupervised Paraphrasing via Deep Reinforcement Learning (2020-KDD)

◼️ Comment

0 ABSTRACT

1 INTRODUCTION

2 BACKGROUND

2.1 Encoder-Decoder Framework

2.2 VAE: Variational Autoencoder

3 OVERVIEW OF PUP

4 PROGRESSIVE UNSUPERVISED PARAPHRASING (PUP)

4.1 Reinforcement Learning Paradigm

4.2 Paraphrasing Reward

4.3 Progressively Training the DRL

5 EXPERIMENTAL SETUP

5.1 Dataset

6 RESULTS

6.1 Automatic Metrics

6.2 Subjective Human Evaluations

6.3 Evaluation on Reward Function

8 CONCLUSION AND FUTURE WORK

댓글

댓글 쓰기