NL-106, Paraphrasing with Large Language Models (2019-WNGT)

◼️ Comment

  • 이 논문 자체의 방법과 인사이트는 사실 어느정도 알고있는 것이다. (특히 요즘엔 더욱)
  • 아주 간단히 말하면 GPT-2을 paraphrase parallel 데이터에 대해 fine-tune한 실험이다.
    • 데이터는 3가지 종류가 있고 양이 그리 많은 편은 아닌거 같다.
  • 추가적으로 USE와 ROGUE-L을 통하여 여러 candidates을 필터링하는 작업을 거친다.
    • 근데 여러 후보를 어떻게 생성하는지?
    • 여기서 top-k, beam search는 사용안한다고 했는데..
    • 아무튼 여러 후보를 생성해서 ROUGE-L을 0.7이하로 해서 너무 overlap안되게 하고 USE로 의미가 비슷한걸 선택했다고 한다.

Abstract

  • 최근, GPT2와 같은 large language model은 그들스스로 광범위하게 text 생성에 적용되고 높은 퀄리티의 결과들을 다운스트림 NLP task에서 (text 분류, sentiment analysis, question answering와 같은) fine-tuning의 도움으로 보여준다.
  • 우리는 large language model을 사용한 유용한 기술을 소개하여 모델이 다양한 텍스트들과 주어들의 변형에 대한 paraphrasing을 수행하게 한다.
  • 우리의 접근법은 문장레벨에서 paraphrasing을 생성하는 능력을 입증할 뿐만 아니라, text가 smaller chunks로 쪼개질 필요 없이 parapraphs(단란)와 같은 더 긴 텍스트 범위에서도 생성한다.

1 Introduction 

  • NLP task에서 Paraphrase generation은 content 생성, question answering, translation, data agumentation에서 다양하게 사용된다.
  • 이것은 십수년동안, statistical과 rule-based 접근법으로 시도되어왔다.
  • 우리는 neural network을 사용해서 autoregressive 방법으로 paraphrased 예제들을 생성하는 시스템을 제안한다.
    • 이 방법은 top-k word selection 혹은 beam search와 같은 기술은 필요없다.
  • 우리는 large language models으로 우리가 이전의 연구보다 더 높은 퀄리와 긴 paraphrase을 생성할 수 있을 뿐 아니라 개인적인 sentence-level을 넘어서 (예. 한 번에 full 문단들) paraphrase text을 생성할 수 있음을 증명한다.
  • 우리가 사용하는 encoder large language models은 transformer encoder-decoder을 수행하고 이는 각 인코딩 레벨에서 language의 다른 representation을 배운다.
  • GPT-2, BERT와 같은 language 모델들의 파워는 그들이 단지 next word의 생성을 넘어서 사용될 수 있는 언어의 유용한 representations을 개발한다.
  • 우리의 실험에서, 우리는 모델들이 syntax와 grammar의 representations을 가지는 것을 관측하여, 그들을 paraphrase generation의 task에 fine-tuned을 한다.

2 Related Work

  • paraphrase generation은 많은 다른 NLP 접근법들에서 매력적이다.
  • 이러한 것들은 다음을 포함한다.
    • rule-based 접근법들 (McKeown, 1979; Meteer and Shaked, 1988)
    • data-driven methods (Madnani and Dorr, 2010)
    • 최근 가장 보편적으로 접근 방식은 task을 번역 task로 취급하는 것이다. (Bannard and CallisonBurch, 2005; Barzilay and McKeown, 2001; Pang et al., 2003)
      • 종종 pivoting back and forth하는 bilingual corpus을 사용한다. (Madnani and Dorr, 2010; Prakash et al., 2016; Mallinson et al., 2017)
  • 다른 방법들로 최근에 
    • Deep Reinforcement Learning의 사용 (Li et al., 2018)
    • seq2seq 모델을 사용한 supervised learning (Gupta et al., 2018; Prakash et al., 2016)
    • unsupervised (Bowman et al., 2016; Roy and Grangier, 2019) 접근법들이 있다. 

3 Methodology

  • 이 섹션에서는 작업을 정의하고, 구현을 제시하고, 평가 프로토콜과 사용된 데이터 세트를 설명합니다.
  • paraphrase generation은 phrase(구)을 생성하는 것으로 설명될 수 있고 이는 의미적으로 기존의 것과 유사하고 새로운 단어들이나 구로 다시 써지는 것이다.

3.1 Large Language Model training

  • LM을 학습하는 것은 NLP 필드의 Transfer Learning에 적절한 모델들을 생성하는 유명한 방법이다.
  • 이러한 모델들이 semi-supervised 방법으로 시퀀스에서 next words을 예측하도록 초기부터 학습되는 동안, 그들은 finetuned 될 수 있고 다양한 다운스트림 NLP 테스크들에서 사용될 수 있다.
    • 문장 분류 / 감정 분석 / tagging / 엔티티 추출
  • 최근에, transformer 구조를 사용한 large language models은 이전에 필요했던 것보다 적은 supervised 데이터를 사용해서 많은 이러한 테스크들에서 SoTA 결과를 달성한다.
  • 이러한 large LMs의 한 가지 예제로 GPT-2는 text generation에 좋은 성능이 입증되었다.
  • transformer 구조의 사용은 1.5 billion parameters 까지의 다양한 사이즈가 사용된다.
  • 이 실험들에서, 우리는 WebText 데이터세트에서 semi-supervised로 학습된 pre-trained GPT-2 모델을 취했다.

3.2 Fine-tuning for Task

  • 우리는 GPT-2모델을 취해서 미리 만들어진 paraphrase 예제들의 supervised dataset으로 fine-tune한다.
  • 이러한 예제들은 모델에 original phrase / paraphrase 쌍을 넣어준다.
  • 모델에게 요청하는 task가 무엇인지 충분한 예제를 모델에게 주어서 적은 epochs동안 학습이 수행된다.
    • 목표는 새로운 데이터에 대한 모델의 overfitting을 피하는 것과 동시에 예상되는 일반적인 패턴을 배울 수 있도록 작업에 충분한 노출을 제공하는 것이다.
  • TPUs로 finetuning을 하는 동안, 끝으로 우리는 같은 결과들은 K80 GPU로 약 90분 학습으로 재구현할 수 있었다.
  • 모델이 fine-tuned 되면, 우리는 conditional 입력없이 샘플링 한 경우 유사한 paraphrase 학습 예제도 생성 할 수 있습니다.
  • 학습 진행 상황을 나타내기 위해, 이것은 'naive' paraphrases들이 주기적으로 학습 중에 샘플링 된다.
  • 이 데이터세트에 대한 fine-tuning이 되고 난 후, 우리는 유니크한 토큰뒤에 어떠한 original phrase을 줄 수 있고 모델이 요구에 따른 paraphrase을 생성하게 한다.

3.3 Candidate Generation and Selection 

  • 모델이 학습되고 난 후, 우리는 이전의 보지못한 문장들을 조건부 입력으로 사용하여 모델로부터 샘플링한다.
  • 조건부 입력은 우리가 single 기존 문장에대해 여러 개의 candidate 문장들을 생성하게 한다.
    • 정확히 어떻게 여러 개를 생성한다는 것이지?
  • paraphrases의 퀄리티가 다소 다양한 가변적이지만, 여러 개의 출력 생성하고 점수를 매김으로써, 우리는 출력을 만족스러운 결과들로 필터링하는 많은 기준을 기반으로 가장 좋은 퀄리티의 pararphases을 선택할 수 있다.
    • 첫 번째는, 우리는 생성된 paraphrase와 original sentence사이의 similarity 점수를 Universal Sentence Encoder (USE)을 사용하여 획득한다.
      • USE는 각 출력 문장에 대한 512 차원의 sentence embedding을 만들어서 기존의 문장의 embedding과 cosine similarity을 측정한다.
    • 두 번째는, 우리는 기존 문장에대한 candidate paraphrases의 ROUGE-L 점수를 측정하고 ROUGE-L가 0.7 이상인 candidates을 제거한다.
      • 이것은 candidates가 original 문장과 너무 유사한 candidate가 선택되는 것을 방지한다.
      • ROUGE-L과 BLEU 둘다로 cutoff하는 테스트를 하고 난 후, ROUGE-L가 기존의 문장에 비교하여 좀 더 유니크한 최종 candidate을 찾는데 유용하다는 것을 찾아낸다.
  • 충분히 낮은 ROUGE-L scores와 가능한 높은 유사도로 샘플들을 선택해서, 우리는 의미적으로 기존 phrase와 유사하지만, 기존 phrase와 비교했을 때 단어 순서가 유니크한 출력을 한다.

3.4 Datasets 

  • 우리는 다양한 다른 데이터세트에 대한 모델의 여러 버전을 fine-tuned한다.
    • 2개의 문장들의 데이터세트와 그들의 매칭되는 패러프레이즈
    • 1개의 parapraphs의 데이터세트와 매칭되는 paraphrases 
  • 1) MSR Paraphrase Identification dataset (Dolan et al., 2004)은 4000개의 original 문장들의 예제로 구성되어있고 매칭되는 paraphrased sentence가 train set에 있다.
  • 2) 온라인 뉴스 기사들로부터의 10000 문장들의 original dataset을 따르는 매칭되는 paraphrases은 사람이 생성한 것이다.
  • 3) 온라인에서 찾을 수있는 다양한 entertainment, 뉴스 및 음식 기사의 해당 paragraphs이있 는 paragraphs의 추가 원본 데이터 세트. 
    • 여기서 paraphrases은 사람이 생성했습니다.
  • 우리는 GPT-2 모델을 각 데이터세트에 대해 3가지 버전을 fine-tuned하고, 위에서 참조한 같은 시스템을 사용하여 예측을 한다.
  • USE, ROUGE-L, BLEU  scores을 각 데이터세트에서 계산하여, 우리는 사람이 생성한 paraphrases의 퀄리티를 정량화한다음, 모델들이 생성한 문장들에 대한 비교로 사용한다.

4 Experiments

  • 우리는 GPT-2를 사용하여 위에서 설명한 시스템을 구현하고 다양한 길이의 학습을 위해 다양한 데이터 세트에서 학습했습니다. 
  • 모델의 출력을 평가하기 위해 Wikipedia, 뉴스 사이트 및 엔터테인먼트 사이트와 같은 소스에서 임의의 문장을 선택하였다.
    • 이들은 모델에 대한 조건부 입력으로 사용할 일치하는 paraphrase 없습니다.

5 Results and Scoring

  • 우리의 생성된 문장을 기존 데이터세트의 평균 점수와 비교해보면, 서로 유리하게 비교됨을 알 수 있다.
  • 전에 말했듯이, 우리는 USE을 사용하여 문장 의미의 semantic 유사도를 평가하고 훈련된 데이터세트로부터 USE 점수를 평균낸 것과 비교한다.
  • 이것은 시스템이 각 데이터 세트에서 인간이 생성한 것과 의미상 동등한 paraphrase을 생성 할 수 있음을 보여주었습니다.
  • 또한 생성 된 샘플의 ROUGE-L (Lin, 2004) 점수를 사람이 생성한 데이터 세트의 평균 값과 비교했습니다.
  • 이것은 우리의 문구가 일관성 있고 인간이 생성한 paraphrase과 동등하다는 것을 다시 보여줍니다.
  • 모델에 의해 생성 된 필터링되지 않은 예제의 결과를 추가로 비교하면 (표 3) USE 점수가 0.85 미만일 때 패러 프레이징 된 버전의 의미 적 유사성 품질이 뚜렷하게 저하되는 것을 관찰합니다.
  • 또한 USE 점수가 1.0에 너무 가까우면 ROUGE-L 점수도 상승하고 생성 된 예가 원래 문장과 너무 유사하여 유용한 의역이 될 수 없습니다.
  • 이 기술은 문장 수준에서뿐만 아니라 단락 수준의 패러 프레이즈를 생성하는 데에도 사용할 수 있습니다.
  • 생성 된 단락의 USE 및 ROUGE-L 점수를 비교하면 단락 데이터 세트에서 사람이 생성 한 예제와 다시 동등합니다 (샘플은 보충 자료에 제공됨).
  • 언어 모델의 사전 교육으로 인해 모델은 미세 조정 단계에서 본 적이없는 콘텐츠 유형에 대해 일반화하고 의역을 생성 할 수 있습니다.

6 Discussion

  • 이 논문에서 설명한 기술은 large LM을 paraphrasing task에 적용함을 보여준다.
  • 또한 대규모 언어 모델의 추가 응용 프로그램과 응용 프로그램에 대해 미세 조정하고 사용하는 데 사용되는 접근 방식에 대해 여전히 배울 것이 많다는 점을 강조합니다.
  • GPT2와 같은 모델들로부터 대부분의 결과들은 생성된 텍스트의 평가 및 향상의 정량적인 방법들보다 텍스트 생성의 퀄리티에 초점을 맞춰 좀 더 일관성있고 사용가능하게한다.
  • 우리는 USE와 ROUGE-L와 같은 기술을 사용하여 candidates을 필터링하고 점수매기는법을 제안하고, 이는 paraphrasing뿐 아니라 다른 text 생성 tasks에도 유용할 것이다.
  • 긴 텍스트 범위로 작업 할 수있는 우리 기술의 능력은 또한 짧은 텍스트 범위에서 가장 잘 수행 된 규칙 기반 및 기타 통계적 접근 방식을 사용한 이전 작업보다 이점을 제공합니다.
  • 우리의 실험들은 GPT-2의 pre-training이 syntax와 영어의 문법의 정도를 "이해"하고 적은 paraphrasing 예제들로 fine-tuning을 통하여 빠르게 paraphrasing의 테스크를 배운다.

7 Future Work

  • paraphrasing의 결과로를 더 일반적인 아이디어로 대입하여, 우리는 언어학적인 계층의 다른 파트에 대응하는 transformer 네트워크의 다른 layers로부터 학습된 representations을 조사하는 것을 확장하길 희망한다.
  • 이것을 하기에 한 가지 가능한 접근법은 해당 구조를 생성하는 텍스트와 병렬로 transformer 네트워크의 기존의 attention 메커니즘을 통해 '마커'세트를 추적하는 것입니다.
  • 추가적으로, 단일 context frame의 범위내에서 tasks을 배운 네트워크의 가능성은 meta- (혹은 one-shot) learning을 향한 고유한 bias의 가능성을 가리킨다.
  • These will be the subject of further work.

Reference

댓글