NL-110, Unsupervised Paraphrasing by Simulated Annealing (ACL-2020)

◼️ Comment

  • ACL2020에 나온 논문으로 가장 최근의 unsupervised paraphrase sota 같다.
  • 논문에서 패러프레이징은 replacement, insertion, deletion, and copy을 통해서 한다.
    • 즉 기존 문장에서 discrete하게 단어들을 바꿔주는 것이다.
    • 이렇게 해서 매번 sampling을 하며 탐색한다.
    • 탐색하면서 계속 바뀌는 문장을 평가하여 일정 score을 넘어가면 대체한다.
    • simulated annealing (SA)이라고 하는 알고리즘을 통해서 진행되고 여기에 temperatrue T 파라미터가 있는데, 이를 통해 score의 변화를 컨트롤한다.
  • score을 다음의 3가지로 평가된다.
    • 1) semantic preservation: glove, sent2vec 이용
    • 2) diversity expression: 1-BLEU을 이용
    • 3) fluency: data-specific LM을 학습했다고 함.
  • 즉 다시 말하면 위 3가지로 기존 문장 score을 매긴다.
    • 탐색한 문장 score을 매긴다.
    • 이를 식(1)을 통해 변경할지 말지 확률을 정한다.
  • 그렇다면 탐색은 어떻게 하는 것일까?
    • 위에서 말한 것처럼 4가지 액션을 통해 진행된다.
    • 이 부분은 자세히 안봤지만 기본적으로는 랜덤으로 액션을 정하는 것 같다.
    • 또한 LM을 통해서 바꿀지 말지도 정하고
    • rare words가 사라지지 않도록 copy mechanism을 다른 논문들과 같이 사용하는 것 같다.
    • 전체적인 흐름은 알고리즘1을 참고하면 된다.

0 Abstract

  • 우리는 새로운 접근법으로 Simulated Annealing에 의한 Unsupervised Paraphrasing을 달성하는 새로운 접근법을 제시한다.
  • 우리는 optimization 문제로써 paraphrase generation을 모델링하고 정교한 objective function을 제안한다.
    • objective는 paraphrases의 semantic similarity와 expression diversity, language fluency을 포함한다.
  • UPSA는 local edits의 sequence을 수행함으로써 이 objective을 향한 sentence space을 검색한다.
  • 우리는 우리의 접근법을 다양한 데이터세트에서 평가한다.
    • Quora, Wikianswers, MSCOCO, Twitter
  • 광범위한 결과들은 UPSA가 이전의 unsupervised methods에 비해 automatic과 human evaluations와 비교하여 SoTA을 달성함을 보여준다.
  • 더 나아가, 우리의 접근법은 기존의 domain-adapted supervised models보다 뛰어나고 UPSA의 일반화 가능성을 보여준다.

1 Introduction 

  • Paraphrasing은 같은 의미를 갖지만 다른 단어들을 가지는 문장으로 표현하는 목표이다.
  • 이것은 question answering, information retrieval, dialogue systems와 같은 많은 NLP tasks의 기초를 구성한다.
  • 그러나, 자동적으로 정확하고 다른 표현의 paraphrases을 생성하는 것은 여전히 어려운 연구 문제이다. (자연어 처리의 복잡성 때문에)
  • 전통적인 접근법들은 번역 시스템에서 영감을 받아서 supervised encoding-decoding 문제로써 paraphrase generation을 모델링한다.
  • 보통, 이러한 모델들은 학습을 위해 많고 거대한 parallel samples을 요구한다.
  • 번역에서, 예를 들어, WMT 2014 English-German 데이터세트는 4.5M 문장 쌍을 포함한다.
  • 그러나, paraphrasing을 위한 학습 코퍼스는 보통 작다.
  • 많이 사용되는 Quora dataset는 140K 패러프레이징 쌍을 포함한다
    • 사람이 쓴 paraphrases paris은 비싸고 노동 집약적이다.
  • 더 나아가, 기존의 paraphrases datasets은 domain-specific이다.
    • Quora 데이터세트는 오직 question sentences을 포함하고 그래서 supervised paraphrases 모델들은 새로운 도메인들에 대해 잘 일반화 못시킨다. (Li et al., 2019)
  • 반면에, 연구자들은 (news events을 클러스터링), (같은 토픽의 tweets을 크롤링), (bi-lingual datasets을 번역)해서 pseudo-paraphrase pairs을 합성한다.
    • 그러나 이러한 방법들은 일반적으로 noisy 학습 세트들을 야기하고, low paraphrasing performance을 이끈다.
  • 결과적으로, unsupervised 방법들은 parallel 데이터가 필요하지 않기 때문에 paraphrase generation에 큰 이점이 있다.
  • 딥러닝의 도움으로, 연구자들은 네트워크로 설계된 probabilistic distribution으로부터 샘플링을 통해 paraphrases을 생성할 수 있다.
    • probabilistic distribution: 연속적인 latent space 혹은 직접적으로 word space
  • 그러나, 생성된 paraphrases의 meaning을 preservation와 다양한 experssion은 그러한 probabilistic sampling 절차에서 덜 controllable하다. 
  • 끝으로, 우리는 Unsupervised Paraphrasing by Simulated Annealing (UPSA)이란 새로운 접근법을 제안한다.
  • Simulated annealing (SA)은 objective function에 대한 stochastic searching 알고리즘으로, 이는 유연하게 정의가능하다.
  • 우리의 연구에서, 우리는 정교한 objective function을 디자인하여, paraphrase의 semantic preservation과 expression diversity와 language fluency을 고려한다.
  • SA는 local editing steps의 시퀀스를 수행함으로써 objective을 향한 search을 하고, 이를 word replacement, insertion, deletion, and copy라고 부른다.
    • 각 step에서, UPSA은 먼저 potetional editing을 제안하고나서 샘플 품질에 따라 proposal을 accepts할지 rejects할지 정한다.
  • 일반적으로, 더 나은 문장 (objective에서 더 높은 점수를 가진)은 항상 accept되며 더 나쁜 문장은 reject될 가능성이 높지만, (annealing temperature을 control하여) accept될 수 있어서 적은 greedy fashing에서 search space을 탐색할 수 있다.
  • 시작으로, temperature은 보통 높고 worse 문장들이 accept될 가능성이 높아서 SA가 local optimum을 벗어난다.
  • temperature은 optimization이 진행됨에 따라 cooled down되며, 모델이 더욱 optimum에 잘 정착되게 만든다.
  • Figure 1 illustrates how UPSA searches an optimum in unsupervised paraphrase generation. 
  • 우리는 우리의 모델을 3개의 paraphrasing datasets에서 효과성을 검증한다.
    • Quora, Wikianswers, MSCOCO, Twitter
  • 실험적인 결과들은 UPSA가 automatic metrics와 human evaluation 둘 다에서 SoTA을 달성함을 보여준다.
  • Contribution
    • 우리는 UPSA 프레임워크를 제안한다. (Unsupervised Paraphrasing by Simulated Annealing)
    • 우리는 paraphrasing을 위한 objective function을 찾는것을 설계하여 language fluency와 semantic similarity뿐만 아니라 paraphrase와 입력사이를 명시적으로 expression diversity을 모델링한다.
    • 우리는 rare words을 해결하는 simulated annealing의 search actions의 한가지로 copy mechanism을 제안한다.
    • 우리는 4개의 벤치마크 데이터세트에서 이전의 unsupervised paraphrase generators와 비교하여 SoTA을 달성하고 supervised paraphrasing과의 성능 차이를 줄인다.
      • We outperform most domain-adapted paraphrase generators, and even a supervised one on the Wikianswers dataset.

2 Related Work

  • 초기에는 일반적으로 언어 지식 (Mckeown, 1983; Ellsworth and Janin, 2007; Narayan et al., 2016)과 통계적 기계 번역 방법 (Quirk et al., 2004; Dolan et al., 2004)을 활용하여 패러 프레이징을 수행했습니다. .
  • 최근에 딥 뉴럴 네트워크는 텍스트 생성에 대한 일반적인 접근 방식이되었습니다. 
  • 여기서 패러 프레이징은 종종 누적 된 잔여 LSTM (Prakash et al., 2016) 및 Transformer 모델 (Wang et al., 2016)을 사용하여 감독 된 인코딩 디코딩 문제로 공식화됩니다. , 2019).
  • 감독되지 않은 패러 프레이징은 NLP 분야에서 떠오르는 연구 방향입니다.
  • VAE (Variational Autoencoder)는 학습 된 잠재 공간에서 문장을 샘플링 할 수 있으므로 감독되지 않은 방식으로 의역 생성에 직관적으로 적용 할 수 있습니다 (Bowman et al., 2016; Zhang et al., 2019; Bao et al., 2019). .
  • 그러나 생성 된 문장은 제어하기 어렵고 VAE의 디코딩 단계에서 오류 누적 문제가 발생합니다 (Miao et al., 2019).
  • Roy and Grangier (2019)는 벡터 양자화 자동 인코더를 기반으로 한 비지도 모델을 소개합니다 (Van den Oord et al., 2017).
  • 그러나 그들의 작업은 주로 자체를 의역하는 대신 데이터 증대를위한 문장을 생성하는 데 중점을 둡니다. Miao et al. (2019) 제한된 문장 생성을 위해 Metropolis–Hastings 샘플링 (1953)을 사용하여 최첨단 비지도 패러 프레이징 성능을 달성합니다.
  • 그들의 작업과 우리 작업의 주요 차이점은 UPSA가 최적의 수렴을 위해 샘플링 프로세스에 어닐링 온도를 부과한다는 것입니다.
  • 또한 의미 적 유사성 및 언어 유창성뿐 아니라 표현 다양성도 포함하는 검색 목표를 정의합니다. 검색 과정에서 복사 메커니즘을 추가로 제안합니다.
  • 최근 몇 가지 연구에서 편집 기반 접근 방식을 문장 생성에 적용했습니다.
  • Guu et al. (2018) 감독 된 시퀀스 대 시퀀스 (Seq2Seq) 모델을위한 휴리스틱 삭제-검색-생성 구성 요소를 제안합니다. 
  • Dong et al. (2019) 감독 된 방식으로 텍스트 단순화를위한 삭제 및 삽입 작업을 학습합니다. 
  • 여기서 실제 작업은 일부 동적 프로그래밍 알고리즘에 의해 얻어집니다.
  • 편집 작업 (삽입, 삭제 및 교체)은 감독되지 않은 시뮬레이션 어닐링의 검색 작업입니다.
  • 이산 최적화 / 검색과 관련하여 순진한 접근 방식은 언덕을 오르는 것입니다 (Edelkamp and Schroedl, 2011; Schumann et al., 2020; Kumar et al., 2020), 이는 사실 탐욕스러운 알고리즘입니다.
  • NLP에서 빔 검색 (BS, Tillmann et al. 1997)은 문장 생성에 널리 적용됩니다.
  • BS는 왼쪽에서 오른쪽으로 (또는 오른쪽에서 왼쪽으로) 디코딩하는 동안 부분적으로 탐욕스러운 방식으로 k-best 목록을 유지합니다 (Anderson et al., 2017; Zhou and Rush, 2019).
  • 대조적으로 UPSA는 전체 문장에 대한 분산 편집이있는 로컬 검색입니다.
  • 또한 UPSA는 원래 문장을 검색의 초기 상태로 사용할 수 있지만 BS는 일반적으로 Seq2Seq 모델의 디코더에서 작동하며 감독되지 않은 패러 프레이징에는 적용되지 않습니다.

3 Approach

  • 이 섹션에서는, 우리는 우리의 새로운 UPSA 프레임워크를 소개하고 이는 simulated annealing (SA) for unsupervised paraphrasing을 사용한다.
  • 특별히, 우리는 먼저 general SA 알고리즘을 소개하고나서 paraphrasing을 위한 우리의 searching objective와 searching actions을 설계한다. (즉, candidate sentence generator)

3.1 The Simulated Annealing Algorithm

  • Simulated Annealing (SA)는 특별히 large discrete or continuous space에 대해서 효과적이고 일반적인 metaheuristic 서칭이다.
  • X는 (huge) search space of sentences이고 f(x)는 objective function이다.
  • sentence x의 search의 목표는 f(x)을 최소화하는 것이다.
  • searching step t에서, SA는 현재 문장 을 유지하고 새로운 candidate 을 local editing을 통해 제안한다. 
  • 새로운 candidate가 f의 score가 더 좋다면 SA는 proposal을 수용한다.
    • 즉 f() > f()이면
  • 그렇지 않으면, SA는 proposal 을 reject하는 경향이 있으나, 작은 확률 로   여전히 accept 될 수 있고, 이는 annealing temperature T로 컨트롤된다.
  • In other words, the probability of accepting the proposal is

    • If the proposal is accepted,  = , or otherwise,  =  
  • annealing in chemistry에서 영감을 얻은 temperature T는 일반적으로 검색 시작 부분에서 높기 때문에 x 가 xt보다 나쁘더라도 high acceptance probability로 이어집니다. 
  • 그런 다음 검색이 진행됨에 따라 온도가 점차 감소합니다. 
  • 우리 작업에서는 T = max (0, Tinit − C · t)에 의해 주어진 선형 어닐링 스케줄을 채택합니다. 
    • 여기서 Tinit은 초기 온도이고 C는 감소율입니다. 
  • SA의 초기 온도가 높으면 알고리즘이 언덕을 오르는 것에 비해 탐욕스럽지 않은 반면, 온도를 낮추면 알고리즘이 특정 최적에 더 잘 정착 할 수 있습니다. 
  • 이론적으로 시뮬레이션 된 어닐링은 제안서와 온도가 일부 온화한 조건을 충족하는 경우 유한 검색 공간에서 전역 최적 값으로 수렴되도록 보장됩니다 (Granville et al., 1994). 
  • 이러한 수렴이 철저한 검색보다 느릴 수 있고 문장 공간이 사실상 무한 할 수 있지만 시뮬레이션 된 어닐링은 특히 이산 최적화를 위해 여전히 널리 적용되는 검색 알고리즘입니다. 
  • 독자는 SA 알고리즘에 대한 자세한 내용은 Hwang (1988)을 참조 할 수 있습니다.

3.2 Objective Function (번역)

  • 시뮬레이션 된 어닐링은 목적 함수를 최대화하여 다양한 응용 분야에서 유연하게 지정할 수 있습니다. 
  • 특히 UPSA 목표 f (x)는 의미 보존 f_sem, 표현 다양성 fexp 및 언어 유창성 f_flu를 포함하여 후보 패러 프레이즈의 여러 측면을 고려합니다. 
  • 따라서 우리의 검색 목표는
    • x0은 입력이다.
  • Semantic Preservation
    • 의역은 원래 문장의 모든 핵심 의미를 포착 할 것으로 예상됩니다. 
    • 따라서 키워드 임베딩의 코사인 함수를 활용하여 후보 패러 프레이즈의 핵심 초점이 입력과 동일한 지 측정합니다. 
    • 구체적으로 Rake 시스템 (Rose et al., 2010)에서 입력 문장 x0의 키워드를 추출하여 GloVE (Pennington et al., 2014)에 포함시킵니다. 
    • 각 키워드에 대해 코사인 유사성 측면에서 x * 후보의 가장 가까운 단어를 찾습니다. 
    • 우리의 키워드 기반 의미 보존 점수는 모든 키워드 중 가장 낮은 코사인 유사성, 
    • 즉 가장 적게 일치하는 키워드에 의해 제공됩니다.

      • where w∗,j is the jth word in the sentence x∗; e is an extracted keyword of x0. 
      • Bold letters indicate embedding vectors.
    • 키워드 임베딩 외에도 Sent2Vec 임베딩 (Pagliardini et al., 2017)을 기반으로 한 문장 수준의 유사성 함수를 채택합니다. 
    • Sent2Vec은 n-gram 임베딩을 학습하고 n-gram 임베딩의 평균을 문장 벡터로 계산합니다. 
    • 유사성 평가 작업에서 다른 비지도 문장 삽입 방법에 비해 상당한 개선이있는 것으로 나타났습니다 (Pagliardini et al., 2017).

  • Expression Diversity
    • 표현 다양성 채점 함수는 두 문장의 어휘 차이를 계산합니다. 
    • 입력 문장에서 단어와 구의 반복에 불이익을주는 BLEU 유도 함수를 채택합니다.

  • Language Fluency
    • 의미 론적 보존과 표현의 다양성에도 불구하고 후보 의역은 그 자체로 유창한 문장이어야합니다.
    • 우리는 유창성 채점 함수로 후보 패러 프레이즈의 가능성을 계산하기 위해 별도로 훈련 된 (순방향) 언어 모델 (-→ LM으로 표시)을 사용합니다.

3.3 Candidate Sentence Generator

  • 앞서 언급했듯이 시뮬레이션 된 어닐링은 다양한 검색 작업에 의해 주어진 후보 문장을 제안합니다. 
  • 각 작업은 xt에서 새로운 문장 x *를 생성하므로 후보 문장 생성기라고합니다. 
  • 후보 문장의 제안은 이론상 수렴에 영향을 미치지는 않지만 (약간의 조건이 만족된다면) SA 검색의 효율성에 큰 영향을 미칠 수 있습니다.
  • 우리 작업에서 우리는 주로 Miao et al.의 단어 수준 편집을 채택합니다. 
  • (2019)를 검색 작업으로 사용하지만 샘플링 분포가 다르며 편집을위한 복사 메커니즘을 추가로 제안합니다. 
  • 각 단계 t에서 후보 문장 생성기는 편집 위치 k와 편집 동작 즉, 교체, 삽입, 삭제를 무작위로 샘플링한다. 
  • 대체 및 삽입을 위해 후보 문장 생성기는 후보 단어도 샘플링합니다. 
  • 현재 문장을 xt = (wt,, ... , wt,k−1, wk, wt,k+1 .. ., wt,lt)라고합시다. 
    • replacement 연산에서 k 번째 단계의 후보 단어 w*를 제안하면 결과 후보 문장은 x* = (wt,1, ... , wt,k−1, w*, wt,k+1 ... , wt,lt). 
    • 삽입 작업도 비슷하게 작동합니다. 
  • 여기서 후보 단어는 목적 함수 (2)에 의해 유도 된 확률 분포에서 샘플링됩니다. 
  • 또한 전체 어휘에서 단어를 샘플링하는 데는 각 후보 단어에 대해 (2) 재평가가 필요하므로 Miao et al. (2019), 순방향 언어 모델과 역방향 언어 모델을 공동으로 고려한 Top-K 단어에서만 샘플. 
  • 예를 들어 대체 연산자는 다음과 같이 상위 K 단어 어휘를 제안합니다.
  • Copy Mechanism. 
    • SA 확률 적 샘플링 중에 이름 엔터티와 희귀 단어가 삭제되거나 대체되는 경우가 있습니다. 
    • 일반적으로 언어 모델이 제안한 확률이 낮기 때문에 복구하기가 어렵습니다. 
    • 따라서 우리는 Seq2Seq 학습에서 영감을 얻은 SA 샘플링을위한 복사 메커니즘을 제안합니다 (Gu et al., 2016). 
    • 특히, 후보 문장 생성기는 단어 교체 및 삽입을 위해 원래 문장 x0에서 단어를 복사 할 수 있습니다. 
    • 이것은 본질적으로 다음과 같이 주어진 x0의 단어로 top-K 샘플링 어휘를 확대합니다.
      • where op ∈ {replace,insert}. 
      • Thus, W_{t,op} is the actual vocabulary from which SA samples the word w∗ for replacement and insertion operation.

3.4 Overall Optimization Process 

4 Experiments

4.1 Datasets 

  • Quora
  • Wikianswers
  • MSCOCO
  • Twitter

4.2 Competing Methods and Metrics

  • Unsupervised paraphrasing은 새로운 연구 주제입니다. 
  • 우리는 UPSA을 최근 discrete와 continuous sampling-based paraphrase generators인 VAE, Lag VAE, CGMH와 비교한다.
  • unsupervised paraphrasing의 초기 연구들은 일반적으로 rule-based methods을 사용한다.
  • 추출된 rules들은 사용할 수 없기 때문에 그들의 성능을 위의 데이터세트들에 대해 검증을 할 수 없다.
  • 따라서 이 논문에서는 비교는 불가능하다.
  • 또한 rule-based 시스템들은 보통 다른 도메인들에 대해 일반화를 못한다.
  • 따라서, 우리는 다음의 경쟁 방법들에 대해 설명한다.
  • VAE
    • 우리는 2개의 layer, 300차원의 LSTM units을 가지는 VAE을 학습한다.
    • VAE는 non-parallel corpora로 학습되며, log-likelihood의 bound를 최소화하도록 학습된다.
    • 인퍼런스동안, 문장들은 학습된 variational latent space에서 샘플링된다.
  • Lag VAE. 
    • He(2019)는 posterior collapse problem을 해결하기위해 좀 더 많은 업데이트로 VAE의 인퍼런스 과정을 적극적으로 최적화하는 것을 제안한다.
    • 이 방법은 SoTA VAE로 리포트되었다.
    • 우리는 공개된 코드를 이용해 비교할 generated paraphrases을 생성한다.
  • CGMH. 
    • Miao(2019)은 Metropolis-Hastings sampling을 word space에서 사용하여 constrained sentence generation을 한다.
    • 이것은 VAE에서 latent space sapling하는 것보다 좋은 성능을 보여주며, SoTA unsupervised paraphrasing 접근법이다.
    • 우리는 공개된 코드로 생성된 paraphrases을 사용한다.
  • UPSA를 감독 된 Seq2Seq 의역 생성기 : ResidualLSTM (Prakash et al., 2016), VAE-SVG-eq (Gupta et al., 2018), Pointer-generator (참조 et al., 2017), Transformer (Vaswani et al., 2017) 및 분해 가능한 신경 패러 프레이즈 생성기 (DNPG, Li et al., 2019). 
  • DNPG는 최첨단 감독 의역 생성기로보고되었습니다. 
  • UPSA를 모든 패러 프레이징 설정과 더 잘 비교하기 위해 소스 도메인에서 훈련되었지만 얕은 퓨전 및 멀티 태스킹 학습을 포함하여 대상 도메인에서 테스트 된 도메인 적응 감독 패러 프레이즈 생성기를 포함합니다.
  • 모델 성능을 평가하기 위해 BLEU (Papineni et al., 2002) 및 ROUGE (Lin, 2004) 점수를 자동 메트릭으로 채택합니다. 
  • Sun and Zhou (2012)는 BLEU와 ROUGE가 생성 된 문장과 원본 문장의 다양성을 측정 할 수 없었 음을 관찰하고 원본 문장과의 유사성에 페널티를 주어 iBLEU 변형을 제안합니다. 
  • 따라서 우리는 iBLEU 점수를 Li et al. (2019). 
  • 또한 실험에서 인간 평가도 수행합니다 (자세한 내용은 나중에 설명).

4.3 Implementation Details 
4.4 Results

4.5 Model Analysis

5 Conclusion and Future Work 

  • 이 논문에서, 우리는 새로운 unsupervised 접근법인 UPSA을 제안한다.
    • 이는 simulated annealing을 통해 paraphrase을 생성한다.
  • 4개의 데이터세트에 대한 실험들은 UPSA가 이전의 SoTA unsupervised methods보다 훨씬 뛰어난 성능을 보여준다.
  • 앞으로, 우리는 SA 프레임워크를 syntactic parse trees에 대해 적용할 것을 계획으로 구문적으로 다른 문장을 생성할 것이다. (우리의 case study에서 영감 받아)

Reference

댓글