◼️ Comment

이 논문 자체의 방법과 인사이트는 사실 어느정도 알고있는 것이다. (특히 요즘엔 더욱)
아주 간단히 말하면 GPT-2을 paraphrase parallel 데이터에 대해 fine-tune한 실험이다.

데이터는 3가지 종류가 있고 양이 그리 많은 편은 아닌거 같다.

추가적으로 USE와 ROGUE-L을 통하여 여러 candidates을 필터링하는 작업을 거친다.

근데 여러 후보를 어떻게 생성하는지?
여기서 top-k, beam search는 사용안한다고 했는데..
아무튼 여러 후보를 생성해서 ROUGE-L을 0.7이하로 해서 너무 overlap안되게 하고 USE로 의미가 비슷한걸 선택했다고 한다.

0 Abstract

최근, GPT2와 같은 large language model은 그들스스로 광범위하게 text 생성에 적용되고 높은 퀄리티의 결과들을 다운스트림 NLP task에서 (text 분류, sentiment analysis, question answering와 같은) fine-tuning의 도움으로 보여준다.
우리는 large language model을 사용한 유용한 기술을 소개하여 모델이 다양한 텍스트들과 주어들의 변형에 대한 paraphrasing을 수행하게 한다.
우리의 접근법은 문장레벨에서 paraphrasing을 생성하는 능력을 입증할 뿐만 아니라, text가 smaller chunks로 쪼개질 필요 없이 parapraphs(단란)와 같은 더 긴 텍스트 범위에서도 생성한다.

1 Introduction

NLP task에서 Paraphrase generation은 content 생성, question answering, translation, data agumentation에서 다양하게 사용된다.
이것은 십수년동안, statistical과 rule-based 접근법으로 시도되어왔다.
우리는 neural network을 사용해서 autoregressive 방법으로 paraphrased 예제들을 생성하는 시스템을 제안한다.

이 방법은 top-k word selection 혹은 beam search와 같은 기술은 필요없다.

우리는 large language models으로 우리가 이전의 연구보다 더 높은 퀄리와 긴 paraphrase을 생성할 수 있을 뿐 아니라 개인적인 sentence-level을 넘어서 (예. 한 번에 full 문단들) paraphrase text을 생성할 수 있음을 증명한다.
우리가 사용하는 encoder large language models은 transformer encoder-decoder을 수행하고 이는 각 인코딩 레벨에서 language의 다른 representation을 배운다.
GPT-2, BERT와 같은 language 모델들의 파워는 그들이 단지 next word의 생성을 넘어서 사용될 수 있는 언어의 유용한 representations을 개발한다.
우리의 실험에서, 우리는 모델들이 syntax와 grammar의 representations을 가지는 것을 관측하여, 그들을 paraphrase generation의 task에 fine-tuned을 한다.

2 Related Work

paraphrase generation은 많은 다른 NLP 접근법들에서 매력적이다.
이러한 것들은 다음을 포함한다.

rule-based 접근법들 (McKeown, 1979; Meteer and Shaked, 1988)
data-driven methods (Madnani and Dorr, 2010)
최근 가장 보편적으로 접근 방식은 task을 번역 task로 취급하는 것이다. (Bannard and CallisonBurch, 2005; Barzilay and McKeown, 2001; Pang et al., 2003)

종종 pivoting back and forth하는 bilingual corpus을 사용한다. (Madnani and Dorr, 2010; Prakash et al., 2016; Mallinson et al., 2017)

다른 방법들로 최근에

Deep Reinforcement Learning의 사용 (Li et al., 2018)
seq2seq 모델을 사용한 supervised learning (Gupta et al., 2018; Prakash et al., 2016)
unsupervised (Bowman et al., 2016; Roy and Grangier, 2019) 접근법들이 있다.

3 Methodology

이 섹션에서는 작업을 정의하고, 구현을 제시하고, 평가 프로토콜과 사용된 데이터 세트를 설명합니다.
paraphrase generation은 phrase(구)을 생성하는 것으로 설명될 수 있고 이는 의미적으로 기존의 것과 유사하고 새로운 단어들이나 구로 다시 써지는 것이다.

3.1 Large Language Model training

LM을 학습하는 것은 NLP 필드의 Transfer Learning에 적절한 모델들을 생성하는 유명한 방법이다.
이러한 모델들이 semi-supervised 방법으로 시퀀스에서 next words을 예측하도록 초기부터 학습되는 동안, 그들은 finetuned 될 수 있고 다양한 다운스트림 NLP 테스크들에서 사용될 수 있다.

문장 분류 / 감정 분석 / tagging / 엔티티 추출

최근에, transformer 구조를 사용한 large language models은 이전에 필요했던 것보다 적은 supervised 데이터를 사용해서 많은 이러한 테스크들에서 SoTA 결과를 달성한다.
이러한 large LMs의 한 가지 예제로 GPT-2는 text generation에 좋은 성능이 입증되었다.
transformer 구조의 사용은 1.5 billion parameters 까지의 다양한 사이즈가 사용된다.
이 실험들에서, 우리는 WebText 데이터세트에서 semi-supervised로 학습된 pre-trained GPT-2 모델을 취했다.

3.2 Fine-tuning for Task

우리는 GPT-2모델을 취해서 미리 만들어진 paraphrase 예제들의 supervised dataset으로 fine-tune한다.
이러한 예제들은 모델에 original phrase / paraphrase 쌍을 넣어준다.
모델에게 요청하는 task가 무엇인지 충분한 예제를 모델에게 주어서 적은 epochs동안 학습이 수행된다.

목표는 새로운 데이터에 대한 모델의 overfitting을 피하는 것과 동시에 예상되는 일반적인 패턴을 배울 수 있도록 작업에 충분한 노출을 제공하는 것이다.

TPUs로 finetuning을 하는 동안, 끝으로 우리는 같은 결과들은 K80 GPU로 약 90분 학습으로 재구현할 수 있었다.
모델이 fine-tuned 되면, 우리는 conditional 입력없이 샘플링 한 경우 유사한 paraphrase 학습 예제도 생성 할 수 있습니다.
학습 진행 상황을 나타내기 위해, 이것은 'naive' paraphrases들이 주기적으로 학습 중에 샘플링 된다.
이 데이터세트에 대한 fine-tuning이 되고 난 후, 우리는 유니크한 토큰뒤에 어떠한 original phrase을 줄 수 있고 모델이 요구에 따른 paraphrase을 생성하게 한다.

3.3 Candidate Generation and Selection

모델이 학습되고 난 후, 우리는 이전의 보지못한 문장들을 조건부 입력으로 사용하여 모델로부터 샘플링한다.
조건부 입력은 우리가 single 기존 문장에대해 여러 개의 candidate 문장들을 생성하게 한다.

정확히 어떻게 여러 개를 생성한다는 것이지?

paraphrases의 퀄리티가 다소 다양한 가변적이지만, 여러 개의 출력 생성하고 점수를 매김으로써, 우리는 출력을 만족스러운 결과들로 필터링하는 많은 기준을 기반으로 가장 좋은 퀄리티의 pararphases을 선택할 수 있다.

첫 번째는, 우리는 생성된 paraphrase와 original sentence사이의 similarity 점수를 Universal Sentence Encoder (USE)을 사용하여 획득한다.

USE는 각 출력 문장에 대한 512 차원의 sentence embedding을 만들어서 기존의 문장의 embedding과 cosine similarity을 측정한다.

두 번째는, 우리는 기존 문장에대한 candidate paraphrases의 ROUGE-L 점수를 측정하고 ROUGE-L가 0.7 이상인 candidates을 제거한다.

이것은 candidates가 original 문장과 너무 유사한 candidate가 선택되는 것을 방지한다.
ROUGE-L과 BLEU 둘다로 cutoff하는 테스트를 하고 난 후, ROUGE-L가 기존의 문장에 비교하여 좀 더 유니크한 최종 candidate을 찾는데 유용하다는 것을 찾아낸다.

충분히 낮은 ROUGE-L scores와 가능한 높은 유사도로 샘플들을 선택해서, 우리는 의미적으로 기존 phrase와 유사하지만, 기존 phrase와 비교했을 때 단어 순서가 유니크한 출력을 한다.

3.4 Datasets

우리는 다양한 다른 데이터세트에 대한 모델의 여러 버전을 fine-tuned한다.

2개의 문장들의 데이터세트와 그들의 매칭되는 패러프레이즈
1개의 parapraphs의 데이터세트와 매칭되는 paraphrases

1) MSR Paraphrase Identification dataset (Dolan et al., 2004)은 4000개의 original 문장들의 예제로 구성되어있고 매칭되는 paraphrased sentence가 train set에 있다.
2) 온라인 뉴스 기사들로부터의 10000 문장들의 original dataset을 따르는 매칭되는 paraphrases은 사람이 생성한 것이다.
3) 온라인에서 찾을 수있는 다양한 entertainment, 뉴스 및 음식 기사의 해당 paragraphs이있 는 paragraphs의 추가 원본 데이터 세트.

여기서 paraphrases은 사람이 생성했습니다.

우리는 GPT-2 모델을 각 데이터세트에 대해 3가지 버전을 fine-tuned하고, 위에서 참조한 같은 시스템을 사용하여 예측을 한다.
USE, ROUGE-L, BLEU scores을 각 데이터세트에서 계산하여, 우리는 사람이 생성한 paraphrases의 퀄리티를 정량화한다음, 모델들이 생성한 문장들에 대한 비교로 사용한다.

4 Experiments

우리는 GPT-2를 사용하여 위에서 설명한 시스템을 구현하고 다양한 길이의 학습을 위해 다양한 데이터 세트에서 학습했습니다.
모델의 출력을 평가하기 위해 Wikipedia, 뉴스 사이트 및 엔터테인먼트 사이트와 같은 소스에서 임의의 문장을 선택하였다.

이들은 모델에 대한 조건부 입력으로 사용할 일치하는 paraphrase 없습니다.

5 Results and Scoring

우리의 생성된 문장을 기존 데이터세트의 평균 점수와 비교해보면, 서로 유리하게 비교됨을 알 수 있다.
전에 말했듯이, 우리는 USE을 사용하여 문장 의미의 semantic 유사도를 평가하고 훈련된 데이터세트로부터 USE 점수를 평균낸 것과 비교한다.
이것은 시스템이 각 데이터 세트에서 인간이 생성한 것과 의미상 동등한 paraphrase을 생성 할 수 있음을 보여주었습니다.
또한 생성 된 샘플의 ROUGE-L (Lin, 2004) 점수를 사람이 생성한 데이터 세트의 평균 값과 비교했습니다.
이것은 우리의 문구가 일관성 있고 인간이 생성한 paraphrase과 동등하다는 것을 다시 보여줍니다.
모델에 의해 생성 된 필터링되지 않은 예제의 결과를 추가로 비교하면 (표 3) USE 점수가 0.85 미만일 때 패러 프레이징 된 버전의 의미 적 유사성 품질이 뚜렷하게 저하되는 것을 관찰합니다.
또한 USE 점수가 1.0에 너무 가까우면 ROUGE-L 점수도 상승하고 생성 된 예가 원래 문장과 너무 유사하여 유용한 의역이 될 수 없습니다.
이 기술은 문장 수준에서뿐만 아니라 단락 수준의 패러 프레이즈를 생성하는 데에도 사용할 수 있습니다.
생성 된 단락의 USE 및 ROUGE-L 점수를 비교하면 단락 데이터 세트에서 사람이 생성 한 예제와 다시 동등합니다 (샘플은 보충 자료에 제공됨).
언어 모델의 사전 교육으로 인해 모델은 미세 조정 단계에서 본 적이없는 콘텐츠 유형에 대해 일반화하고 의역을 생성 할 수 있습니다.

6 Discussion

이 논문에서 설명한 기술은 large LM을 paraphrasing task에 적용함을 보여준다.
또한 대규모 언어 모델의 추가 응용 프로그램과 응용 프로그램에 대해 미세 조정하고 사용하는 데 사용되는 접근 방식에 대해 여전히 배울 것이 많다는 점을 강조합니다.
GPT2와 같은 모델들로부터 대부분의 결과들은 생성된 텍스트의 평가 및 향상의 정량적인 방법들보다 텍스트 생성의 퀄리티에 초점을 맞춰 좀 더 일관성있고 사용가능하게한다.
우리는 USE와 ROUGE-L와 같은 기술을 사용하여 candidates을 필터링하고 점수매기는법을 제안하고, 이는 paraphrasing뿐 아니라 다른 text 생성 tasks에도 유용할 것이다.
긴 텍스트 범위로 작업 할 수있는 우리 기술의 능력은 또한 짧은 텍스트 범위에서 가장 잘 수행 된 규칙 기반 및 기타 통계적 접근 방식을 사용한 이전 작업보다 이점을 제공합니다.
우리의 실험들은 GPT-2의 pre-training이 syntax와 영어의 문법의 정도를 "이해"하고 적은 paraphrasing 예제들로 fine-tuning을 통하여 빠르게 paraphrasing의 테스크를 배운다.

7 Future Work

paraphrasing의 결과로를 더 일반적인 아이디어로 대입하여, 우리는 언어학적인 계층의 다른 파트에 대응하는 transformer 네트워크의 다른 layers로부터 학습된 representations을 조사하는 것을 확장하길 희망한다.
이것을 하기에 한 가지 가능한 접근법은 해당 구조를 생성하는 텍스트와 병렬로 transformer 네트워크의 기존의 attention 메커니즘을 통해 '마커'세트를 추적하는 것입니다.
추가적으로, 단일 context frame의 범위내에서 tasks을 배운 네트워크의 가능성은 meta- (혹은 one-shot) learning을 향한 고유한 bias의 가능성을 가리킨다.
These will be the subject of further work.

Reference

https://arxiv.org/pdf/1911.09661.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-106, Paraphrasing with Large Language Models (2019-WNGT)

◼️ Comment

0 Abstract

1 Introduction

2 Related Work

3 Methodology

3.1 Large Language Model training

3.2 Fine-tuning for Task

3.3 Candidate Generation and Selection

3.4 Datasets

4 Experiments

5 Results and Scoring

6 Discussion

7 Future Work

댓글

댓글 쓰기