◼️ Comment

ACL2020에 나온 논문으로 가장 최근의 unsupervised paraphrase sota 같다.
논문에서 패러프레이징은 replacement, insertion, deletion, and copy을 통해서 한다.

즉 기존 문장에서 discrete하게 단어들을 바꿔주는 것이다.
이렇게 해서 매번 sampling을 하며 탐색한다.
탐색하면서 계속 바뀌는 문장을 평가하여 일정 score을 넘어가면 대체한다.
simulated annealing (SA)이라고 하는 알고리즘을 통해서 진행되고 여기에 temperatrue T 파라미터가 있는데, 이를 통해 score의 변화를 컨트롤한다.

score을 다음의 3가지로 평가된다.

1) semantic preservation: glove, sent2vec 이용
2) diversity expression: 1-BLEU을 이용
3) fluency: data-specific LM을 학습했다고 함.

즉 다시 말하면 위 3가지로 기존 문장 score을 매긴다.

탐색한 문장 score을 매긴다.
이를 식(1)을 통해 변경할지 말지 확률을 정한다.

그렇다면 탐색은 어떻게 하는 것일까?

위에서 말한 것처럼 4가지 액션을 통해 진행된다.
이 부분은 자세히 안봤지만 기본적으로는 랜덤으로 액션을 정하는 것 같다.
또한 LM을 통해서 바꿀지 말지도 정하고
rare words가 사라지지 않도록 copy mechanism을 다른 논문들과 같이 사용하는 것 같다.
전체적인 흐름은 알고리즘1을 참고하면 된다.

0 Abstract

우리는 새로운 접근법으로 Simulated Annealing에 의한 Unsupervised Paraphrasing을 달성하는 새로운 접근법을 제시한다.
우리는 optimization 문제로써 paraphrase generation을 모델링하고 정교한 objective function을 제안한다.

objective는 paraphrases의 semantic similarity와 expression diversity, language fluency을 포함한다.

UPSA는 local edits의 sequence을 수행함으로써 이 objective을 향한 sentence space을 검색한다.
우리는 우리의 접근법을 다양한 데이터세트에서 평가한다.

Quora, Wikianswers, MSCOCO, Twitter

광범위한 결과들은 UPSA가 이전의 unsupervised methods에 비해 automatic과 human evaluations와 비교하여 SoTA을 달성함을 보여준다.
더 나아가, 우리의 접근법은 기존의 domain-adapted supervised models보다 뛰어나고 UPSA의 일반화 가능성을 보여준다.

1 Introduction

Paraphrasing은 같은 의미를 갖지만 다른 단어들을 가지는 문장으로 표현하는 목표이다.
이것은 question answering, information retrieval, dialogue systems와 같은 많은 NLP tasks의 기초를 구성한다.
그러나, 자동적으로 정확하고 다른 표현의 paraphrases을 생성하는 것은 여전히 어려운 연구 문제이다. (자연어 처리의 복잡성 때문에)
전통적인 접근법들은 번역 시스템에서 영감을 받아서 supervised encoding-decoding 문제로써 paraphrase generation을 모델링한다.
보통, 이러한 모델들은 학습을 위해 많고 거대한 parallel samples을 요구한다.
번역에서, 예를 들어, WMT 2014 English-German 데이터세트는 4.5M 문장 쌍을 포함한다.
그러나, paraphrasing을 위한 학습 코퍼스는 보통 작다.
많이 사용되는 Quora dataset는 140K 패러프레이징 쌍을 포함한다

사람이 쓴 paraphrases paris은 비싸고 노동 집약적이다.

더 나아가, 기존의 paraphrases datasets은 domain-specific이다.

Quora 데이터세트는 오직 question sentences을 포함하고 그래서 supervised paraphrases 모델들은 새로운 도메인들에 대해 잘 일반화 못시킨다. (Li et al., 2019)

반면에, 연구자들은 (news events을 클러스터링), (같은 토픽의 tweets을 크롤링), (bi-lingual datasets을 번역)해서 pseudo-paraphrase pairs을 합성한다.

그러나 이러한 방법들은 일반적으로 noisy 학습 세트들을 야기하고, low paraphrasing performance을 이끈다.

결과적으로, unsupervised 방법들은 parallel 데이터가 필요하지 않기 때문에 paraphrase generation에 큰 이점이 있다.
딥러닝의 도움으로, 연구자들은 네트워크로 설계된 probabilistic distribution으로부터 샘플링을 통해 paraphrases을 생성할 수 있다.

probabilistic distribution: 연속적인 latent space 혹은 직접적으로 word space

그러나, 생성된 paraphrases의 meaning을 preservation와 다양한 experssion은 그러한 probabilistic sampling 절차에서 덜 controllable하다.
끝으로, 우리는 Unsupervised Paraphrasing by Simulated Annealing (UPSA)이란 새로운 접근법을 제안한다.
Simulated annealing (SA)은 objective function에 대한 stochastic searching 알고리즘으로, 이는 유연하게 정의가능하다.
우리의 연구에서, 우리는 정교한 objective function을 디자인하여, paraphrase의 semantic preservation과 expression diversity와 language fluency을 고려한다.
SA는 local editing steps의 시퀀스를 수행함으로써 objective을 향한 search을 하고, 이를 word replacement, insertion, deletion, and copy라고 부른다.

각 step에서, UPSA은 먼저 potetional editing을 제안하고나서 샘플 품질에 따라 proposal을 accepts할지 rejects할지 정한다.

일반적으로, 더 나은 문장 (objective에서 더 높은 점수를 가진)은 항상 accept되며 더 나쁜 문장은 reject될 가능성이 높지만, (annealing temperature을 control하여) accept될 수 있어서 적은 greedy fashing에서 search space을 탐색할 수 있다.
시작으로, temperature은 보통 높고 worse 문장들이 accept될 가능성이 높아서 SA가 local optimum을 벗어난다.
temperature은 optimization이 진행됨에 따라 cooled down되며, 모델이 더욱 optimum에 잘 정착되게 만든다.
Figure 1 illustrates how UPSA searches an optimum in unsupervised paraphrase generation.
우리는 우리의 모델을 3개의 paraphrasing datasets에서 효과성을 검증한다.

Quora, Wikianswers, MSCOCO, Twitter

실험적인 결과들은 UPSA가 automatic metrics와 human evaluation 둘 다에서 SoTA을 달성함을 보여준다.
Contribution

우리는 UPSA 프레임워크를 제안한다. (Unsupervised Paraphrasing by Simulated Annealing)
우리는 paraphrasing을 위한 objective function을 찾는것을 설계하여 language fluency와 semantic similarity뿐만 아니라 paraphrase와 입력사이를 명시적으로 expression diversity을 모델링한다.
우리는 rare words을 해결하는 simulated annealing의 search actions의 한가지로 copy mechanism을 제안한다.
우리는 4개의 벤치마크 데이터세트에서 이전의 unsupervised paraphrase generators와 비교하여 SoTA을 달성하고 supervised paraphrasing과의 성능 차이를 줄인다.

We outperform most domain-adapted paraphrase generators, and even a supervised one on the Wikianswers dataset.

2 Related Work

초기에는 일반적으로 언어 지식 (Mckeown, 1983; Ellsworth and Janin, 2007; Narayan et al., 2016)과 통계적 기계 번역 방법 (Quirk et al., 2004; Dolan et al., 2004)을 활용하여 패러 프레이징을 수행했습니다. .
최근에 딥 뉴럴 네트워크는 텍스트 생성에 대한 일반적인 접근 방식이되었습니다.
여기서 패러 프레이징은 종종 누적 된 잔여 LSTM (Prakash et al., 2016) 및 Transformer 모델 (Wang et al., 2016)을 사용하여 감독 된 인코딩 디코딩 문제로 공식화됩니다. , 2019).
감독되지 않은 패러 프레이징은 NLP 분야에서 떠오르는 연구 방향입니다.
VAE (Variational Autoencoder)는 학습 된 잠재 공간에서 문장을 샘플링 할 수 있으므로 감독되지 않은 방식으로 의역 생성에 직관적으로 적용 할 수 있습니다 (Bowman et al., 2016; Zhang et al., 2019; Bao et al., 2019). .
그러나 생성 된 문장은 제어하기 어렵고 VAE의 디코딩 단계에서 오류 누적 문제가 발생합니다 (Miao et al., 2019).
Roy and Grangier (2019)는 벡터 양자화 자동 인코더를 기반으로 한 비지도 모델을 소개합니다 (Van den Oord et al., 2017).
그러나 그들의 작업은 주로 자체를 의역하는 대신 데이터 증대를위한 문장을 생성하는 데 중점을 둡니다. Miao et al. (2019) 제한된 문장 생성을 위해 Metropolis–Hastings 샘플링 (1953)을 사용하여 최첨단 비지도 패러 프레이징 성능을 달성합니다.
그들의 작업과 우리 작업의 주요 차이점은 UPSA가 최적의 수렴을 위해 샘플링 프로세스에 어닐링 온도를 부과한다는 것입니다.
또한 의미 적 유사성 및 언어 유창성뿐 아니라 표현 다양성도 포함하는 검색 목표를 정의합니다. 검색 과정에서 복사 메커니즘을 추가로 제안합니다.
최근 몇 가지 연구에서 편집 기반 접근 방식을 문장 생성에 적용했습니다.
Guu et al. (2018) 감독 된 시퀀스 대 시퀀스 (Seq2Seq) 모델을위한 휴리스틱 삭제-검색-생성 구성 요소를 제안합니다.
Dong et al. (2019) 감독 된 방식으로 텍스트 단순화를위한 삭제 및 삽입 작업을 학습합니다.
여기서 실제 작업은 일부 동적 프로그래밍 알고리즘에 의해 얻어집니다.
편집 작업 (삽입, 삭제 및 교체)은 감독되지 않은 시뮬레이션 어닐링의 검색 작업입니다.
이산 최적화 / 검색과 관련하여 순진한 접근 방식은 언덕을 오르는 것입니다 (Edelkamp and Schroedl, 2011; Schumann et al., 2020; Kumar et al., 2020), 이는 사실 탐욕스러운 알고리즘입니다.
NLP에서 빔 검색 (BS, Tillmann et al. 1997)은 문장 생성에 널리 적용됩니다.
BS는 왼쪽에서 오른쪽으로 (또는 오른쪽에서 왼쪽으로) 디코딩하는 동안 부분적으로 탐욕스러운 방식으로 k-best 목록을 유지합니다 (Anderson et al., 2017; Zhou and Rush, 2019).
대조적으로 UPSA는 전체 문장에 대한 분산 편집이있는 로컬 검색입니다.
또한 UPSA는 원래 문장을 검색의 초기 상태로 사용할 수 있지만 BS는 일반적으로 Seq2Seq 모델의 디코더에서 작동하며 감독되지 않은 패러 프레이징에는 적용되지 않습니다.

3 Approach

이 섹션에서는, 우리는 우리의 새로운 UPSA 프레임워크를 소개하고 이는 simulated annealing (SA) for unsupervised paraphrasing을 사용한다.
특별히, 우리는 먼저 general SA 알고리즘을 소개하고나서 paraphrasing을 위한 우리의 searching objective와 searching actions을 설계한다. (즉, candidate sentence generator)

3.1 The Simulated Annealing Algorithm

Simulated Annealing (SA)는 특별히 large discrete or continuous space에 대해서 효과적이고 일반적인 metaheuristic 서칭이다.
X는 (huge) search space of sentences이고 f(x)는 objective function이다.
sentence x의 search의 목표는 f(x)을 최소화하는 것이다.
searching step t에서, SA는 현재 문장 $x_t$ 을 유지하고 새로운 candidate $x_*$ 을 local editing을 통해 제안한다.
새로운 candidate가 f의 score가 더 좋다면 SA는 proposal을 수용한다.

즉 f( $x_*$ ) > f( $x_t$ )이면

그렇지 않으면, SA는 proposal $x_*$ 을 reject하는 경향이 있으나, 작은 확률 $e^{\frac{f(x*)-f(x_t)}{T}}$ 로 여전히 accept 될 수 있고, 이는 annealing temperature T로 컨트롤된다.
In other words, the probability of accepting the proposal is

If the proposal is accepted, $x_{t+1}$ = $x_*$ , or otherwise, $x_{t+1}$ = $x_t$

annealing in chemistry에서 영감을 얻은 temperature T는 일반적으로 검색 시작 부분에서 높기 때문에 x 가 xt보다 나쁘더라도 high acceptance probability로 이어집니다.
그런 다음 검색이 진행됨에 따라 온도가 점차 감소합니다.
우리 작업에서는 T = max (0, Tinit − C · t)에 의해 주어진 선형 어닐링 스케줄을 채택합니다.

여기서 Tinit은 초기 온도이고 C는 감소율입니다.

SA의 초기 온도가 높으면 알고리즘이 언덕을 오르는 것에 비해 탐욕스럽지 않은 반면, 온도를 낮추면 알고리즘이 특정 최적에 더 잘 정착 할 수 있습니다.
이론적으로 시뮬레이션 된 어닐링은 제안서와 온도가 일부 온화한 조건을 충족하는 경우 유한 검색 공간에서 전역 최적 값으로 수렴되도록 보장됩니다 (Granville et al., 1994).
이러한 수렴이 철저한 검색보다 느릴 수 있고 문장 공간이 사실상 무한 할 수 있지만 시뮬레이션 된 어닐링은 특히 이산 최적화를 위해 여전히 널리 적용되는 검색 알고리즘입니다.
독자는 SA 알고리즘에 대한 자세한 내용은 Hwang (1988)을 참조 할 수 있습니다.

3.2 Objective Function (번역)

시뮬레이션 된 어닐링은 목적 함수를 최대화하여 다양한 응용 분야에서 유연하게 지정할 수 있습니다.
특히 UPSA 목표 f (x)는 의미 보존 f_sem, 표현 다양성 fexp 및 언어 유창성 f_flu를 포함하여 후보 패러 프레이즈의 여러 측면을 고려합니다.
따라서 우리의 검색 목표는

x0은 입력이다.

Semantic Preservation

의역은 원래 문장의 모든 핵심 의미를 포착 할 것으로 예상됩니다.
따라서 키워드 임베딩의 코사인 함수를 활용하여 후보 패러 프레이즈의 핵심 초점이 입력과 동일한 지 측정합니다.
구체적으로 Rake 시스템 (Rose et al., 2010)에서 입력 문장 x0의 키워드를 추출하여 GloVE (Pennington et al., 2014)에 포함시킵니다.
각 키워드에 대해 코사인 유사성 측면에서 x * 후보의 가장 가까운 단어를 찾습니다.
우리의 키워드 기반 의미 보존 점수는 모든 키워드 중 가장 낮은 코사인 유사성,
즉 가장 적게 일치하는 키워드에 의해 제공됩니다.

where w∗,j is the jth word in the sentence x∗; e is an extracted keyword of x0.
Bold letters indicate embedding vectors.

키워드 임베딩 외에도 Sent2Vec 임베딩 (Pagliardini et al., 2017)을 기반으로 한 문장 수준의 유사성 함수를 채택합니다.
Sent2Vec은 n-gram 임베딩을 학습하고 n-gram 임베딩의 평균을 문장 벡터로 계산합니다.
유사성 평가 작업에서 다른 비지도 문장 삽입 방법에 비해 상당한 개선이있는 것으로 나타났습니다 (Pagliardini et al., 2017).

Expression Diversity

표현 다양성 채점 함수는 두 문장의 어휘 차이를 계산합니다.
입력 문장에서 단어와 구의 반복에 불이익을주는 BLEU 유도 함수를 채택합니다.

Language Fluency

의미 론적 보존과 표현의 다양성에도 불구하고 후보 의역은 그 자체로 유창한 문장이어야합니다.
우리는 유창성 채점 함수로 후보 패러 프레이즈의 가능성을 계산하기 위해 별도로 훈련 된 (순방향) 언어 모델 (-→ LM으로 표시)을 사용합니다.

3.3 Candidate Sentence Generator

앞서 언급했듯이 시뮬레이션 된 어닐링은 다양한 검색 작업에 의해 주어진 후보 문장을 제안합니다.
각 작업은 xt에서 새로운 문장 x *를 생성하므로 후보 문장 생성기라고합니다.
후보 문장의 제안은 이론상 수렴에 영향을 미치지는 않지만 (약간의 조건이 만족된다면) SA 검색의 효율성에 큰 영향을 미칠 수 있습니다.
우리 작업에서 우리는 주로 Miao et al.의 단어 수준 편집을 채택합니다.
(2019)를 검색 작업으로 사용하지만 샘플링 분포가 다르며 편집을위한 복사 메커니즘을 추가로 제안합니다.
각 단계 t에서 후보 문장 생성기는 편집 위치 k와 편집 동작 즉, 교체, 삽입, 삭제를 무작위로 샘플링한다.
대체 및 삽입을 위해 후보 문장 생성기는 후보 단어도 샘플링합니다.
현재 문장을 xt = (wt,, ... , wt,k−1, wk, wt,k+1 .. ., wt,lt)라고합시다.

replacement 연산에서 k 번째 단계의 후보 단어 w*를 제안하면 결과 후보 문장은 x* = (wt,1, ... , wt,k−1, w*, wt,k+1 ... , wt,lt).
삽입 작업도 비슷하게 작동합니다.

여기서 후보 단어는 목적 함수 (2)에 의해 유도 된 확률 분포에서 샘플링됩니다.

또한 전체 어휘에서 단어를 샘플링하는 데는 각 후보 단어에 대해 (2) 재평가가 필요하므로 Miao et al. (2019), 순방향 언어 모델과 역방향 언어 모델을 공동으로 고려한 Top-K 단어에서만 샘플.
예를 들어 대체 연산자는 다음과 같이 상위 K 단어 어휘를 제안합니다.

Copy Mechanism.

SA 확률 적 샘플링 중에 이름 엔터티와 희귀 단어가 삭제되거나 대체되는 경우가 있습니다.
일반적으로 언어 모델이 제안한 확률이 낮기 때문에 복구하기가 어렵습니다.
따라서 우리는 Seq2Seq 학습에서 영감을 얻은 SA 샘플링을위한 복사 메커니즘을 제안합니다 (Gu et al., 2016).
특히, 후보 문장 생성기는 단어 교체 및 삽입을 위해 원래 문장 x0에서 단어를 복사 할 수 있습니다.
이것은 본질적으로 다음과 같이 주어진 x0의 단어로 top-K 샘플링 어휘를 확대합니다.

where op ∈ {replace,insert}.
Thus, W_{t,op} is the actual vocabulary from which SA samples the word w∗ for replacement and insertion operation.

3.4 Overall Optimization Process

4 Experiments

4.1 Datasets

Quora
Wikianswers
MSCOCO
Twitter

4.2 Competing Methods and Metrics

Unsupervised paraphrasing은 새로운 연구 주제입니다.
우리는 UPSA을 최근 discrete와 continuous sampling-based paraphrase generators인 VAE, Lag VAE, CGMH와 비교한다.
unsupervised paraphrasing의 초기 연구들은 일반적으로 rule-based methods을 사용한다.
추출된 rules들은 사용할 수 없기 때문에 그들의 성능을 위의 데이터세트들에 대해 검증을 할 수 없다.
따라서 이 논문에서는 비교는 불가능하다.
또한 rule-based 시스템들은 보통 다른 도메인들에 대해 일반화를 못한다.
따라서, 우리는 다음의 경쟁 방법들에 대해 설명한다.
VAE.

우리는 2개의 layer, 300차원의 LSTM units을 가지는 VAE을 학습한다.
VAE는 non-parallel corpora로 학습되며, log-likelihood의 bound를 최소화하도록 학습된다.
인퍼런스동안, 문장들은 학습된 variational latent space에서 샘플링된다.

Lag VAE.

He(2019)는 posterior collapse problem을 해결하기위해 좀 더 많은 업데이트로 VAE의 인퍼런스 과정을 적극적으로 최적화하는 것을 제안한다.
이 방법은 SoTA VAE로 리포트되었다.
우리는 공개된 코드를 이용해 비교할 generated paraphrases을 생성한다.

CGMH.

Miao(2019)은 Metropolis-Hastings sampling을 word space에서 사용하여 constrained sentence generation을 한다.
이것은 VAE에서 latent space sapling하는 것보다 좋은 성능을 보여주며, SoTA unsupervised paraphrasing 접근법이다.
우리는 공개된 코드로 생성된 paraphrases을 사용한다.

UPSA를 감독 된 Seq2Seq 의역 생성기 : ResidualLSTM (Prakash et al., 2016), VAE-SVG-eq (Gupta et al., 2018), Pointer-generator (참조 et al., 2017), Transformer (Vaswani et al., 2017) 및 분해 가능한 신경 패러 프레이즈 생성기 (DNPG, Li et al., 2019).
DNPG는 최첨단 감독 의역 생성기로보고되었습니다.
UPSA를 모든 패러 프레이징 설정과 더 잘 비교하기 위해 소스 도메인에서 훈련되었지만 얕은 퓨전 및 멀티 태스킹 학습을 포함하여 대상 도메인에서 테스트 된 도메인 적응 감독 패러 프레이즈 생성기를 포함합니다.
모델 성능을 평가하기 위해 BLEU (Papineni et al., 2002) 및 ROUGE (Lin, 2004) 점수를 자동 메트릭으로 채택합니다.
Sun and Zhou (2012)는 BLEU와 ROUGE가 생성 된 문장과 원본 문장의 다양성을 측정 할 수 없었 음을 관찰하고 원본 문장과의 유사성에 페널티를 주어 iBLEU 변형을 제안합니다.
따라서 우리는 iBLEU 점수를 Li et al. (2019).
또한 실험에서 인간 평가도 수행합니다 (자세한 내용은 나중에 설명).

4.3 Implementation Details
4.4 Results

4.5 Model Analysis

5 Conclusion and Future Work

이 논문에서, 우리는 새로운 unsupervised 접근법인 UPSA을 제안한다.

이는 simulated annealing을 통해 paraphrase을 생성한다.

4개의 데이터세트에 대한 실험들은 UPSA가 이전의 SoTA unsupervised methods보다 훨씬 뛰어난 성능을 보여준다.
앞으로, 우리는 SA 프레임워크를 syntactic parse trees에 대해 적용할 것을 계획으로 구문적으로 다른 문장을 생성할 것이다. (우리의 case study에서 영감 받아)

Reference

https://www.aclweb.org/anthology/2020.acl-main.28.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-110, Unsupervised Paraphrasing by Simulated Annealing (ACL-2020)

◼️ Comment

0 Abstract

1 Introduction

2 Related Work

3 Approach

3.1 The Simulated Annealing Algorithm

3.2 Objective Function (번역)

3.3 Candidate Sentence Generator

3.4 Overall Optimization Process

4 Experiments

4.1 Datasets

4.2 Competing Methods and Metrics

4.3 Implementation Details
4.4 Results

4.5 Model Analysis

5 Conclusion and Future Work

댓글

댓글 쓰기

NL-110, Unsupervised Paraphrasing by Simulated Annealing (ACL-2020)

◼️ Comment

0 Abstract

1 Introduction

2 Related Work

3 Approach

3.1 The Simulated Annealing Algorithm

3.2 Objective Function (번역)

3.3 Candidate Sentence Generator

3.4 Overall Optimization Process

4 Experiments

4.1 Datasets

4.2 Competing Methods and Metrics

4.3 Implementation Details 4.4 Results

4.5 Model Analysis

5 Conclusion and Future Work

댓글

댓글 쓰기

4.3 Implementation Details
4.4 Results