NL-147, Prompt-and-Rerank: A Method for Zero-Shot and Few-Shot Arbitrary Textual Style Transfer with Small Language Models

ARR 202204-Review 1

0 Abstract

  • 범용 사전 훈련된 언어 모델을 사용하여 텍스트를 주어진 스타일로 자동 변환하는 작업인 임의의 텍스트 스타일 전송(TST) 방법을 제안합니다.
  • Prompt-and-Rerank라고 하는 우리의 방법은 TST 작업의 새로운 수학적 공식을 기반으로 하며, TST 작업은 텍스트 유사성, 대상 스타일 강도 및 유창성의 세 가지 구성 요소로 분해됩니다.
  • 특히, 우리의 방법은 먼저 대상 스타일의 candidate generations 집합을 얻기 위해 제로샷 또는 퓨어샷 프롬프트를 사용한 다음 위의 세 가지 구성 요소의 조합에 따라 이러한 후보의 순위를 재지정합니다.
  • Experimentally, our method enables small pre-trained language models to perform on par with state-of-the-art large-scale models while consuming two orders of magnitude less compute and memory.
  • 실험적으로 우리의 방법은 작은 사전 훈련된 언어 모델이 최첨단 대규모 모델과 동등한 성능을 발휘하면서 컴퓨팅 및 메모리를 100배 덜 소모하도록 합니다.
    • 이에 대해 계산 필요
  • 마지막으로, 우리는 7개의 다양한 스타일 전송 데이터 세트에 걸쳐 스타일 전송 품질에 대한 모델 크기 및 프롬프트 디자인(예: prompt paraphrasing and delimiter-pair choice)의 효과에 대한 체계적인 조사를 수행합니다.
  • 텍스트 스타일 전송에 대한 향후 연구를 용이하게 하기 위해 모든 코드와 데이터를 공개할 것입니다.

1 Introduction

  • TST(텍스트 스타일 전송)는 주요 의미 내용, 구조 또는 기타 속성을 변경하지 않고 텍스트 조각(예:  sentiment attribute, formality, politeness 등)의 한 문체 측면을 전송하는 작업을 나타냅니다.
  • 전통적으로 NLG(자연어 생성) 커뮤니티는 스타일 전송의 각 인스턴스화에 고유한 작업으로 접근하여 스타일별 교육 말뭉치에 대한 전문 모델을 설계하고 교육했습니다.
  • 예를 들어, sentiment transfer은 광범위하게 연구되었습니다.
    • 이 패러다임은 TST 연구를 병렬 말뭉치(parallel corpora)가 있는 제한적이고 간단한 스타일 선택 세트로 제한했으며, 이는 종종 단어 교체(예: 감정 전달을 위해 부정적인 단어를 해당하는 긍정적 단어로 교체)로 적절하게 해결할 수 있습니다.
  • 그러나 최근 LM(범용 언어 모델링)의 성공으로 인해 보다 일반적인 스타일 전달 공식을 다룰 수 있는지 묻는 것이 당연합니다.
    • 임의의 TST는 참조 텍스트를 추론 시 사용자가 지정한 임의의 스타일로 변환하는 것을 목표로 합니다.
  • 다른 영역에서 자연어 프롬프팅의 성공에 영감을 받아 임의의 TST에 대한 프롬프팅 기반 제로 및 퓨샷 접근 방식을 고려합니다.
  • 이 설정에서 소스 텍스트를 (그리고 선택적으로 소수의 사례에서 몇 가지 예) 포함하는 자연어 프롬프트를 사용하여 원하는 유형의 스타일 전달 문제를 지정한 다음 사전 훈련된 LM을 사용하여 양식화된 대상 텍스트를 생성합니다.
  • 따라서 추가 교육이나 미세 조정 없이 소스 텍스트를 사용자가 지정한 스타일로 변환할 수 있습니다.
  • 최근 연구(Reif 2021)에 따르면 1,750억 매개변수 GPT-3(Brown 2020) 모델과 독점 10억 매개변수 LLM 모델과 같은 초대형 언어 모델(LLM)이 sentiment and formality을 전달할 수 있습니다.
  • 그러나 이 규모의 언어 모델은 메모리 소비가 크고 생성 시간이 느리기 때문에 inference-only settings에서도 대부분의 연구자와 실무자가 액세스할 수 없습니다.
  • 지금까지 우리가 아는 한, 스타일 전달 영역에 대한 합리적인 크기의 모델 기능에 대한 연구나 프롬프트의 정확한 구성이 모델 성능에 미치는 영향에 대한 체계적인 연구는 없었습니다.
  • 본 논문은 과거 작업과 달리 사전 훈련된 언어 모델을 사용하여 임의의 TST에 대한 first-principles approach을 취합니다.
  • 먼저 작업을 수학적으로 공식화하여 textual similarity, target style strength 및 fluency의 조합으로 공식화할 수 있는 방법을 보여줍니다.
    • This framework naturally leads us to propose a new method for arbitrary TST, which we call “Prompt-and-Rerank.” 
  • 이 방법을 사용하여 우리는 처음으로 small language models을 사용하여 임의의 TST를 수행할 수 있음을 보여줍니다.
    • 이전 작업은 거대한(즉, GPT-3 스케일) 언어 모델만이 이 작업을 수행할 수 있음을 나타냅니다.
  • We summarize the main contributions and insights of this paper as follows: 
    • (i) 임의의 TST 작업의 첫 번째 수학적 공식화를 제공합니다.
    • (ii) 우리는 수학적 공식에서 자연스럽게 따라오는 임의의 TST에 대한 새로운 프롬프트 기반 방법인 Prompt-and-Rerank을 제안합니다.
    • (iii) 우리의 방법은 GPT-2와 같은 small LM을 사용하면서 임의의 TST에 대한 최첨단 성능과 일치하고 때로는 초과하기도 합니다.
    • (iv) task phrasing 및 delimiter-pair choice과 같은 prompt design이 스타일 전송 생성의 품질에 미치는 영향에 대한 미묘한(뉘앙스) 조사를 수행합니다. 
    • (v) 해당 분야의 추가 연구를 장려하고 촉진하기 위해 수반되는 자동 평가 메트릭과 함께 임의의 TST(인기 감정 전달 데이터 세트 AMAZON 및 YELP의 정리된 버전 포함)에 대한 일련의 벤치마크를 설정합니다.

2 Background and Related Work

  • Background. 
    • TST는 감정 및 형식 이전과 같은 많은 인기 있는 하위 작업을 포함하는 NLP의 오랜 문제입니다.
    • 최근 몇 년 동안 대규모 사전 훈련이 도래하기 전에는 이러한 각 하위 작업을 개별적으로 고려하고 각 작업에 대해 서로 다른 supervised datasets 세트에서 별도의 모델을 훈련하는 것이 일반적이었습니다.
    • 이러한 모델은 일반적으로 제한된 작업 범위 내에서 잘 수행되었지만 새로운 작업이나 교육 배포 외부의 텍스트로 일반화하는 데 실패했습니다.
    • 그러나 최근 몇 년 동안 새로운 패러다임이 등장했습니다.
      • pretraining Transformer models on web-scale datasets and then fine-tuning or prompting them for downstream tasks. 
    • 이 작업에 대한 우리의 기여에는 이 새로운 패러다임을 사용하여 TST의 많은 하위 작업을 비교적 작은 Transformer 모델에서도 통합된 제로샷 방식으로 처리하는 방법을 보여주는 것이 포함됩니다.
  • Related Work. 
    • TST에 대한 전통적인 접근 방식은 크게 두 가지 유형으로 분류할 수 있습니다.
    • 첫 번째 패밀리는 독특한 style-related phrases를 식별하고 교체하는 것입니다.
      • 예를 들어 Madaan(2020)은 먼저 TF-IDF를 사용하여 문체 속성이 있는 단어를 식별한 다음 이러한 문체 단어를 대상 속성과 연결된 단어로 대체하거나 보강하도록 모델을 훈련함으로써 politeness transfer 작업을 수행합니다.
      • 일반적으로 이러한 접근 방식은 매우 간단한 스타일 편집(예: not이라는 단어를 추가하여 문장을 부정)에 잘 수행되지만 더 복잡한 구문 및 의미 변경이 필요한 시나리오에서는 어려움을 겪습니다.
    • 두 번째 접근 방식은 스타일과 콘텐츠의 잠재된 표현을 분리하여 텍스트가 스타일 불변 표현으로 인코딩된 다음 원하는 스타일로 디코딩될 수 있도록 하는 것입니다.
      • 예를 들어 Hu(2017)는 속성 판별자와 함께 VAE를 사용하여 스타일에 구애받지 않는 잠재 공간으로 인코딩하고 디코딩합니다.
      • 이러한 접근 방식은 이론적으로 근거가 있는 경우가 많지만 일반적으로 많은 양의 레이블이 지정된 데이터가 필요하고 소수의 스타일 이상으로 확장하는 데 어려움을 겪습니다.
  • 이 두 제품군과 달리 최근 한 작업(Reif 2021)은 NLP의 다른 영역에서 사전 훈련된 LM의 놀라운 성능에서 영감을 얻은 아이디어인 TST를 해결하기 위해 엄청난 사전 훈련된 언어 모델을 사용합니다.
    • 특히 LLM, LLM-Dialog 및 GPT-3을 사용하며 각 매개변수에는 1000억 개 이상의 매개변수가 있어 다양한 스타일의 텍스트를 다시 작성합니다.
    • 그러나 그들은 프롬프팅 설정에 대한 최소한의 분석을 수행하고 이러한 분석을 향후 작업으로 미루며 이러한 프롬프팅 기반 접근 방식은 LLM에서만 가능하다고 제안합니다.
  • 이 논문은 사전 훈련된 언어 모델을 사용하여 텍스트 스타일 전달의 일반적인 작업에 대한 새로운 prompt-and-rerank 접근 방식을 제시합니다.
  • 우리의 방법과 함께, 우리는 텍스트 스타일 전송 작업에 대한 prompt formulation 및 모델 크기에 대한 최초의 체계적인 연구를 제시합니다.
  • 예상과 달리 우리의 방법을 사용하여 small LM도 임의의 스타일 전송을 효과적으로 수행할 수 있음을 발견했습니다.
  • 실제로 우리는 메모리와 컴퓨팅을 100배 더 적게 사용하여 여러 데이터 세트에서 Reif(2021)의 성능을 일치시킵니다.

3 Method: Prompt-Based Arbitrary TST

  • 이 섹션은 텍스트 스타일 전송 작업의 수학적 공식화로 시작합니다.
  • 리의 공식화는 작업의 세 가지 기본 구성 요소를 설명합니다.
    • text similarity, target style strength, and fluency
  • 그리고 그것은 자연스럽게 우리를 style transfer 방법을 기반으로한 re-ranking-based prompt인 Prompt-and-Rerank로 이끕니다.

3.1 Problem Formulation

  • x ∈ Σ∗ 은 vocabulary Σ에 대한 text을 나타내고 S은 모든 가능한 text style 선택들의 set을 말한다.
  • 우리는 x(s1) ∈ Σ ∗을 style s1 ∈ S에서 쓰여진 text x을 가리키는 것으로 사용한다.
  • 비공식적으로, TST의 목표는 text x(s1)의 style 을 s1에서 s2로 변환하고, 이 때 텍스트의 주요 semantic context은 변하지 않아야한다.
  • 우리는 공식적으로 다음의 함수를 통해 표현한다.
    • function f : Σ∗ × S × S → Σ∗
    • 이는 input text (즉 x(s1))와 그에 해당하는 style (s1), target style (s1)을 취해서 s2의 스타일로 입력을 다시작성한 수정한 버전을 출력한다. 이를 x˜(s2)라고 부른다.
  • 이상적으로, 우리는 생성된 출력 x˜(s2) = f(x(s1) , s1, s2)은 ground-truth x(s2)와 가능한 가까워야 한다 (의미적으로 구문적으로).
    • 근데 gt가 데이터에 없는데?
  • 그림 1에 표시된 그래픽 모델은 TST(및 해당 문제에 대한 기계 번역) 작업을 공식화하는 두 가지 다른 방법을 제공합니다.
    • 텍스트 스타일 전송 작업에 대한 두 가지 다르지만 똑같이 meaningful and valid interpretations. 여기서 x는 텍스트의 보편적(추상) 의미로 생각할 수 있으며, x(s1)는 x를 s1 스타일로 다시 쓴 것입니다. 어떤 그래픽 모델을 고수하느냐에 따라 x(s2)는 x와 s2(왼쪽 모델) 또는 x(s1)와 s2(오른쪽 모델)에 의해 생성된다고 할 수 있습니다.
  • 두 모델 모두 유효하고 의미 있는 의미와 해석을 가지고 있습니다.
    • 그들 사이의 주요 생성 차이점은 전자(왼쪽)에서 x~(s2)의 parents가 x와 s2인 반면, x~(s2)의 부모는 후자(오른쪽)에서 x(s1)와 s2라는 것입니다.
  • 임의의 TST에 대한 다양한 supervised 데이터를 수집하는 고유한 어려움으로 인해 대부분의 이전 연구는 source (s1) 및 target (s2) 스타일 선택이 미리 고정되어 있는 작업의 단순화된 버전을 고려했습니다.
    • 즉 스타일을 여러개로 자유롭게 바꾸는건 데이터 수집의 어려움이 있어서, 고정된 스타일 2개만 쓴다는건가?
  • 이 작업에서 우리는 작업의 광범위한 공식을 고려하고, 소스 및 대상 스타일 선택에 대해 선험적으로 가정하지 않으며, 임의의 TST를 수행하기 위해 off-the-shelf(기존의) LM의 힘을 어떻게 활용할 수 있는지 설명합니다.
  • target 스타일 s2와 s1 스타일로 작성된 입력 텍스트 x(s1)가 주어지면 생성된 출력 x~(s2)의 conditional likelihood을 세 가지 용어로 분해합니다.

    • P(B|A) = P(A교B)/P(B)인데 A교B를 위 식의 2번째 행처럼 쓴듯
    • 교집합이란, 동시에 발생해야하는거이므로, 이를 저렇게 3번째 행의 비례식처럼 쓴거 같음
    • P(A교B)=P(A|B)P(B) 이므로, 4번째행으로 풀어서 적은 듯
    • 마찬가지로 5번째 행으로 풀어서 적음
  • 첫 번째 항인 p([x (s1) , s1] | [x~ (s2) , s2])는 입력 텍스트와 생성된 출력 간의 텍스트 유사성의 척도로 생각할 수 있습니다.
    • 1번째항이 왜 textual similarity을 나타내지?
    • back-translation의 관점이 아닌가?
  • 두 번째 항 p(s2 | x~(s2))는 출력의 전달 강도를 측정합니다 (즉, 출력이 대상 스타일로 작성되었는지 여부를 결정함).
  • 마지막 항 p(x~(s2))는 생성된 출력의 전반적인 유창성을 측정합니다.

3.2 Controllable Generation with Prompt-Based TST

  • §3.3에 설명된 우리의 방법은 프롬프트 템플릿(§4.2)을 사용하여 입력 텍스트와 원하는 스타일 변환(및 소수의 경우의 소수의 예시)을 natural-language prefix로 변환합니다.
  • 그런 다음 사전 훈련된 LM에 프롬프트를 입력하고 모델의 매개변수를 업데이트하지 않고 프롬프트에 따라 조건이 지정된 출력을 생성합니다.
    • 프롬프트 설정을 보다 구체적으로 만들기 위해 실험에 사용된 템플릿 중 하나를 살펴보겠습니다. 이를 대조라고 하고 입력 요소를 프롬프트로 바꾸는 방법을 설명합니다. 이 템플릿의 형식은 간단합니다. "다음은 [s1]: {[x (s1) ]} 텍스트를 다시 작성합니다. [s2]: {"입니다. "{" 및 "}"는 각각 입력 텍스트와 생성된 출력 텍스트의 왼쪽 및 오른쪽 구분 기호를 나타냅니다.
    • If we have an input sentence x (s1) =“I love The Sound of Music; it is the best movie ever!!” with s1=positive and s2=negative, then the prompt under this template would be “Here is a text, which is positive: {I love The Sound of Music; it is the best movie ever!!} 
    • Here is a rewrite of the text, which is negative: {” The language model would then generate an output by autoregressively decoding after the last delimiter, to produce a sentence such as: “I hate The Sound of Music; it is the worst movie ever!!}”
    • 왜 footnote에 쓰지?
  • 이러한 형태의 프롬프트는 모델의 작업을 컨텍스트화할 뿐만 아니라 필요한 모든 conditional 정보 (즉, 입력 문장, 소스 스타일 및 대상 스타일)를 입력 컨텍스트에 통합합니다.
  • 프롬프트 템플릿은 모델에 구애받지 않으므로 사전 훈련된 LM을 즉시 사용할 수 있습니다.
  • 특히, 우리의 실험은 이 접근 방식이 성공하기 위해 방대한 언어 모델이 필요하지 않음을 보여줍니다.

3.3 Prompt-and-Rerank Improving Generations

  • 지금까지 우리는 모델이 하나의 출력 텍스트만 생성한다고 가정했습니다.
  • 그러나 추가 계산 비용을 기꺼이 발생시킬 의향이 있는 경우 여러 후보 출력을 생성하고(예: 빔 검색 사용), 일부 메트릭에 따라 각각을 다시 채점하고, 가장 높은 점수를 가진 출력을 선택할 수 있습니다.
  • 우리의 방법에서 이러한 점수는 자연스럽게 Eq(1)의 분해를 따릅니다.
  • 우리의 방법은 두 단계로 구성되어 있습니다: prompting and re-ranking. 
  • prompting 단계에서 LM에서 x~(s2)에 대한 k 후보 출력을 샘플링하여 p_forward(x~(s2) |[x(s1), s1], s2)를 추정합니다.
    • 이제 X~(s2) = {x~(s2)1 , · · · , x~(s2)k } 가 LM에 의해 생성된 k 출력의 집합을 나타냅니다.
    • 즉 빔서치로 생성한 후보들의 집합이 X~(s2)라는 것
  • re-ranking 단계에서 우리는 식 (1)을 사용하여 p_reranking(x~(s2) |[x (s1) , s1], s2) ∝ p([x ( s1) , s1]|[x~ (s2) , s2])p(s2|x~ (s2) )p(x~ (s2) ) 그런 다음 가장 높은 점수를 가진 x~ (s2) i ∈ X~ 선택 .
    • 즉 prompting에서 생성된 후보들중에서, 점수를 식 1에서 보여준 것처럼 3가지 term을 계산해서 랭킹을 매긴다는 것
    • 근데 식 1로부터 유추된 것인데 p_forward로 그냥 하는 것이라 뭐가 다른가? p_forward는 3가지 metric이 아닌 단순히 LM을 레버리징 한것 
    • 부록에 성능 비교는 있는거 같은데, 분석이 필요한듯
    • 사용되는 모델이 다른건데 top-1보다 re-ranking 한 것이 더 좋다는 보장은?
  • remaining 단계는 re-ranking pass의 각 term를 계산하는 것입니다.
  • (i) 첫 번째 항을 계산하기 위해 BERT에서 사전 훈련된 문맥 임베딩을 활용하여 두 텍스트 간의 코사인 유사성을 측정하는 BERTScore를 사용합니다.
    • p([x(s1), s1]|[x~(s2), s2]) = BERTScore(x(s1), x(s2))라고 가정합니다.
  • (ii) 두 번째 항을 계산하기 위해 다음과 같이 사전 훈련된 RoBERTa 모델인 Masked LM(MLM)을 의도적으로 스타일 분류기로 전환합니다.
    • x~(s2)i ∈ X~(s2) 및 S = {s1, s2}가 주어지면 x~(s2)i를 사전 정의된 클로즈 템플릿을 통해 "fill-in-the-blank" cloze template으로 변환합니다. 
    • 즉, "The following text is ____: [x~(s2)i]"로 다시 작성합니다.
    • 그런 다음 MLM에 쿼리하여 누락된 토큰을 예측하지만 원래 모델 어휘에 대한 확률 분포를 보는 대신 S의 elements에 attention를 제한하므로 누락된 토큰이 s1 또는 s2일 가능성을 고려합니다.
    • 이 프레임워크의 한 가지 제한 사항은 스타일이 모델 어휘 아래에 고유한 토큰을 가지고 있다고 가정한다는 것입니다.
    • 그런 다음 이 확률을 l1-normalization로 정규화하고 p(s2|x~(s2))에 대한 적절한 확률 분포를 얻습니다.
    • Of course, a more sophisticated normalization technique can be employed in this setup, but this basic normalization method seems to be sufficient in our experiments.
    • 즉, zero-shot style classification을 하겠다는 것인데.. 이거에 대한 성능도 리포트되면 좋을 거 같음.
  • (iii) 마지막 term에 대해서는 GPT-2-Large(774M)를 사용하여 각 candidate 텍스트의 전체 likelihood을 결정합니다.
  • (iv) 이후에 (i), (ii), (iii)을 곱하여 각 후보자의 점수를 계산합니다. 
    • 모든 후보자의 순위를 다시 매기십시오. 
    • 그리고 최종 출력으로 가장 높은 점수를 가진 것을 선택합니다.
    • (iii)의 계산은 긴 시퀀스 또는 희귀 단어를 포함하는 시퀀스에 페널티를 주기 때문에 유창성 요소를 무시하는 reranking 방법도 고려합니다.
    • fluency을 normalizing하면 안되나? (기하평균과 같은)
    • 모델에 의해 생성된 문장이 항상 유창하다고 가정하는 것은 잘못된 가정이라는 것을 알고 있습니다.
  • Figure 2 provides an abstract illustration of our re-ranking algorithm.
    • Prompt-and-Rerank 방법의 다이어그램. 입력 텍스트와 스타일 변환이 주어지면 먼저 프롬프트를 작성하고 사전 훈련된 언어 모델에 공급하여 빔 검색을 사용하여 프롬프트를 조건으로 하는 여러 출력 텍스트를 생성합니다. 그런 다음 Eq (1)의 세 축(텍스트 유사성, 스타일 전달 강도 및 유창성)을 따라 각 후보 출력의 점수를 다시 매깁니다. 재순위 점수가 가장 높은 후보를 출력으로 선택합니다.

4 Prompt Construction

  • 실제로 프롬프트의 특정 구문이 모델 성능에 상당한 영향을 미친다는 것을 발견했습니다.
  • 따라서 우리는 TST 세대의 품질에 대한 다양한 즉각적인 설계 선택의 영향에 대한 체계적인 조사를 수행했습니다.

4.1 Delimiter-Pairs

  • 우리는 10개의 다른 text boundary markers (delimiter 쌍)를 실험했는데, 두 가지 범주로 나눌 수 있습니다. 
    • opening and closing markers are identical (known as indistinguishable delimeters)
    • markers are different (known as complementary delimeters). 
  • 특히, 두 개의 구별할 수 없는 쌍(즉, 따옴표 및 대시)과 8개의 보완 쌍을 고려했습니다.
    • (1) 중괄호 {·},
    • (2) 대괄호 [·],
    • (3) 꺾쇠괄호 ⟨·⟩,
    • (4) 괄호(·),
    • (5) 인용 부호 " · ",
    • (6) 대시 – · –,
    • (7) 삼중 꺾쇠 괄호 ⟨⟨⟨·⟩⟩⟩,
    • (8) 대괄호 따옴표 ⟩ " · ",
    • (9) 별표 따옴표 * " · ", (10) 이중 중괄호 {{·}}.
  • (8), (9), (10)을 사용하여 Markdown에서 블록 인용문, 글머리 기호 및 유동 태그를 각각 모방한다.
  • 그들의 실험에서 Reif(2021)는 중괄호만 사용합니다.
    • 우리는 모델이 문장이 시작하고 끝나는 위치를 구별하고 이해하는 것이 범주적으로 더 쉽기 때문에 보완적인 구분 기호 쌍이 구별할 수 없는 것보다 더 나은 결과를 산출할 수 있다고 가정했습니다. 또한 다양한 컨텍스트(예: 코드 조각)의 교육 데이터에서 텍스트 분리자로 사용될 가능성이 더 높은 구분 기호 쌍이 더 나은 결과를 산출할 수 있다고 추측했습니다.
    • phrasing이 더 중요한거 아닌가? 이러한 부분도 중요한가보네?
    • 실험적으로 보여주나?

4.2 Prompt Phrasing

  • discrete prompts에 대해 수동으로 작성한 네 가지 템플릿 형식을 고려했습니다.
    • [d1] 및 [d2]는 각각 선택한 delimiter-pair의 opening 요소와 closing 요소를 나타냅니다.
  • 그들의 실험에서 Reif(2021)는 prompt의 후반부에 대상 스타일(s2)만 지정하는 바닐라 설정을 독점적으로 사용했습니다.
    • 즉 Reif는 (a)만 사용했다는 것.
    • 그러나 우리는 초기에 소스 스타일(s1)에 대한 유용한 정보를 제공하고 프롬프트 의미 체계에서 소스와 대상 스타일 사이의 명확한 대조를 생성하는 것이 사전 훈련된 LM이 작업의 기본 특성을 더 잘 이해하는 데 도움이 될 것이라고 추측하고 성능을 향상시킵니다.
  • 따라서 우리는 contrastive setting도 살펴보기로 결정했습니다.
    • 다른 두 negation templates의 경우 소스 스타일을 대상 스타일의 부정(즉, s1:="not s2")으로 지정하거나 그 반대로 지정하는 것이 모델 성능에 어떤 영향을 미칠 수 있는지 테스트하고 싶었습니다.

4.3 Zero-Shot vs. Few-Shot Settings

  • 최근 몇 년 동안 GPT-3과 같은 LLM은 자신이 resourceful few-shot learners로 입증되었습니다.
  • few-shot learning 설정에서 모델은 종종 작업을 설명하는 자연어 프롬프트와 함께 예시적인 small set로 제공됩니다.
    • 그리고 기본 작업을 이해하고 추론 시간에 모델의 가중치에 대한 기울기 업데이트를 수행하지 않고 정확한 예측을 수행할 것으로 예상됩니다.
  • 우리는 demonstrations 수가 우리 모델의 성능에 어떤 영향을 미치는지 살펴보고 싶었습니다. 
  • 이를 위해 제로샷 및 four-shot 설정에서 모델의 성능도 테스트했습니다.

5 Experiments and Results 

5.1 Datasets

  • 단일 TST 하위 작업 또는 데이터 세트에 중점을 둔 대부분의 이전 작업과 달리 우리는 광범위한 TST 하위 작업에 대한 실험을 제시합니다(표 2에도 설명됨).
    • YELP: Sentiment transfer for Yelp reviews (Zhang et al., 2015) 
    • AMAZON: Sentiment transfer for Amazon reviews (Li et al., 2018) 
    • SHAKESPEARE: Elizabethan-to-modern translation for Shakespeare (Xu et al., 2012) 
    • GYAFC: Formality transfer for Yahoo Answers responses (Li et al., 2018) 
    • JFLEG: Grammar correction for student essays (Napoles et al., 2017) 
    • SYM: Symbol-to-natural-language translation on a new custom synthetic dataset
  • 우리 연구의 초기 단계에서 우리는 이러한 모든 데이터 세트(합성인 SYM 제외)가 깨끗하지 않거나 일관되게 토큰화되지 않았음을 확인했습니다.
    • 이것은 범용 언어 모델을 사용하기 어렵게 만듭니다.
  • 이 문제를 해결하기 위해 작성자는 이러한 데이터 세트를 수동으로 정리했습니다. 
  • 향후 연구를 용이하게 하기 위해 이 문서와 함께 공개할 것입니다.
  • 부록에서는 원본 데이터셋과 정리된 데이터셋 모두에 대한 결과를 제시합니다.

5.2 Evaluation Metrics

  • 스타일 및 감정 전달에 대한 이전 작업에서는 content/meaning preservation (textual similarity), style transfer strength, and fluency이라는 세 가지 차원에서 모델을 평가했습니다.
  • 놀랍게도 이러한 차원은 위의 수학식 1에 나타나는 기준과 정확히 일치합니다.
  • Content Preservation. 
    • BLEU는 의미론적 콘텐츠 보존을 측정하기 위한 표준 메트릭입니다.
    • SacreBLEU(SBLEU) 구현을 사용하여 reference-BLEU (r-SBLEU) 및 self-BLEU (s-SBLEU) 점수를 모두 계산합니다.
    • r-SBLEU는 실측 참조로부터 생성된 문장의 거리를 측정하는 데 도움이 되지만 s-SBLEU는 모델이 소스를 직접 복사하는 정도를 나타냅니다.
  • Transfer Strength. 
    • TST 모델에 의해 생성된 출력이 대상 스타일의 속성을 가지고 있는지 확인하기 위해 standard classifier-based approach을 따릅니다.
    • 관심 말뭉치에서 style classifier를 훈련하고 이를 사용하여 스타일이 대상 스타일과 일치하는 생성된 출력의 비율을 추정합니다.
    • 어떤 모델을 classification으로 쓰는지?
  • Fluency. 
    • 생성된 텍스트의 유창함을 측정하기 위해 사전 훈련된 대규모 언어 모델(이 경우 GPT-2-Large)을 사용하여 평균 토큰 수준의 복잡도를 계산합니다.
      • 왜 GPT2-Large을 쓰지?
    • 이 PPL 기반 접근 방식은 자동화되고 실용적이라는 장점이 있지만 더 짧은 텍스트에 대한 편향을 포함하여 여전히 상당한 단점이 있다는 점에 유의해야 합니다.
    • fluency을 normalizing하면 안되나? (기하평균과 같은)

5.3 Model Choices.

  • We use seven variants of 
    • GPT-2 with different sizes: Small (117M parameters), Medium (345M), Large (774M), and XL (1.6B), 
    • GPT-Neo-1.3B Black (2021), 
    • GPT-Neo-2.7B,
    • GPT-J-6B. 
  • 이러한 모델 중 어느 것도 미세 조정되거나 즉시 조정되지 않았음을 강조합니다.

5.4 Results

  • 여기에서 우리의 주요 결과에 대한 요약을 제시합니다.
  • 전체 결과를 보려면 독자가 부록(표 7-17)을 볼 것을 권장합니다.
  • 표 3은 이전 작업과 비교한 YELP에 대한 결과를 보여줍니다.
    • 어떤 deliminator, prompt을 사용한 모델인지? (표 3,4)
  • 훈련이나 미세 조정이 아님에도 불구하고 우리의 방법은 이러한 작업을 위해 특별히 설계되고 훈련된 이전 모델과 경쟁력이 있습니다.
  • 비교 논문들이 살짝 오래된거 같은데?
    • LLM보다 Ours GPT-J가 BLEU쪽 성능은 높고 PPL은 낮다. 왜 그런걸까?
    • BLEU 등에 대해 좀 더 자세한 분석이 필요해보임.
    • LLM보다 LM 성능은 떨어지지만, 이는 여러 개를 후보로 뽑아서 했기 때문에 좋아보인다.
    • 그렇다면 속도 및 연산량 단점은 오히려 늘어날 수 있는거 아닌가?
    • Our accuracy and BLEU score estimates for them matched the numbers reported in previous work
    • 그러면 classifier에 따라 acc 성능이 다른거 아닌가?
  • 사실, supervised 방법과 비교할 때 우리 모델은 거의 항상 더 유창한 출력을 생성합니다 (perplexity로 측정).
    • 독점적인 1370억 매개변수 LLM 모델을 사용하는 Reif(2021)와 비교하여 훨씬 더 작은 모델을 사용하더라도 동등하거나 유리하게 비교합니다. 
    • 우리는 "FirstChoice" 설정(단일 출력 사용)보다 더 나은 BLEU 점수를 얻었고 "BestBLEU" 오라클 설정보다 더 나은 정확도 점수를 얻었습니다 (which takes the best of 16 outputs, as measured by BLEU score using ground truth data).
  • 표 4는 GPT-2-XL 및 GPT-J 모델에 대한 7가지 TST 데이터 세트 전체에 대한 결과를 요약한 것입니다.
    • GPT2, GPT-J비교했을때 LM이 좋다고해서 항상 좋은 결과를 보여주는거 같지는 않은데..? 
    • 그렇다면, 결국은 한 모델에서 여러 cand을 뽑는거보단 여러 모델에서 cand을 뽑아서 하는게 좋은거 아닐까?
  • 모든 모델(GPT-2-Small부터 GPT-J까지)을 포함한 전체 결과는 부록을 참조하십시오.
  • 대체로 모든 모델이 합리적인 수준으로 스타일을 전달할 수 있으며, 큰 모델(예: GPT-2-XL, GPT-Neo-2.7B, 467 GPT-J)이 작은 모델보다 성능이 좋습니다.
    • 지속적으로 성능이 좋지 않은 유일한 모델은 GPT-2-Small입니다. 
    • 높은 s-sBLEU 점수와 낮은 정확도는 입력 텍스트의 긴 섹션(스타일 변경 없이)을 다른 모델보다 더 자주 복사한다는 것을 나타냅니다.
  • 개별 작업을 살펴보면 JFLEG 작업에 상당한 개선 여지가 있음을 알 수 있습니다. 
    • 대부분의 모델은 변경 없이 입력 텍스트를 복사하는 단순한 기준선 성능이 저하되었습니다.
  • 기준선은 GPT-J(40.0 획득)를 제외한 모든 모델보다 우수한 37.2 GLEU를 달성했습니다.
  • 마지막으로 새로운 합성 작업인 SYM에서 GPT-J가 다른 모델보다 훨씬 더 나은 성능을 발휘한다는 것을 발견했습니다. 
    • 74% 정확도를 달성한 반면 다른 모델은 60% 수준 정확도를 초과하지 않았습니다.
  • 모델이 올바른 출력을 생성하는 데 실패했을 때 우리는 입력 단어를 성공적으로 복사했지만 잘못된 논리(예: "greater than" 대신 "less than" 생성)를 사용하는 경우가 많았음을 발견했습니다.

5.5 Further Analysis and Discussion

  • Contrastive prompting generally improves style transfer quality. 
    • 표 5(부록의 표 17)에서 볼 수 있듯이, 이 백서에서 고려한 네 가지 프롬프팅 프로토콜 중에서 contrastive prompting이 항상 최고의 BLEU 점수는 아니지만 일반적으로 최고의 정확도를 산출했습니다.
  • Delimiter-pair choice has a large impact on model performance 
    • 10개의 다른 delimiter-pairs에 대한 우리의 체계적인 분석은 delimeter 선택이 생성된 출력의 품질에 실질적으로 영향을 미친다는 것을 보여줍니다.
    • 모든 설정에서 가장 잘 수행되는 단일 쌍은 없지만 중괄호 {·}, 대괄호 [·], 괄호(·) 및 따옴표 " · "와 같은 특정 구분 기호는 두 AMAZON에서 일관되게 더 나은 결과를 산출했습니다. 및 YELP(표 7-10 참조).
    • 너무 부록에 많은 내용이 있는 듯. 이 경우도
    • table 6에 대해 언급해야할듯
    • 여기 테이블의 실험들은 어떤 delimiter을 기준으로 실험한 것인가?
    • 차라리, 하나의 delimiter로만 실험을 하고 부록에 delimiter에 대한 설명을 넣는 것이 낫다.
    • 이러한 마커의 강력한 성능은 우리 모델의 사전 훈련 데이터의 일부를 구성하는 에세이, 대화 및 코드 조각과 같은 다양한 텍스트 컨텍스트에서 텍스트 구분 기호(또는 구분 기호)로 자주 사용된다는 사실에 기인한다고 가정합니다. .
  • Re-ranking method improves overall performance. 
    • 우리는 두 가지 순위 재지정 접근 방식을 고려했습니다. 
    • 하나는 가장 높은 빔 점수로 생성된 출력을 선택하고 다른 하나는 빔 검색을 사용하여 모델에서 3개의 출력을 샘플링한 다음 §3.3에서 논의한 세 가지 기준에 따라 다시 점수를 매기는 것입니다. .
    • <표 12>와 <표 13>에서 보는 바와 같이 순위 재지정 방식은 감성 정확도를 10~30% 높일 수 있다.
    • 항상 그런 것은 아니지만 종종 더 나은 BLEU 및 유창성 점수로 이어집니다.
  • Analysis of bias and transfer performance in opposite directions. 
    • 우리는 사전 훈련된 모델이 강한 방향 편향을 가지고 있음을 발견했습니다.
    • AMAZON 및 YELP에서 음수 → 양수(N→P) 및 양수 → 음수(P→N) 방향으로 이동할 때 동일한 성능을 발휘한 모델은 없습니다.
    • We offer three possible explanations for this phenomenon: 
      • (i) The inherent differences in the linguistic difficulty of the tasks, 
      • (ii) the potential biases in pre-training dataset(s), and 
      • (iii) the poor quality of annotations in certain style transfer directions.
        • 첫 번째 요점과 관련하여 감정 전달 데이터 세트의 정성적 검사는 어떤 경우에는 단순히 부정(예: "not")을 텍스트에 추가하여 우수한 P→N 성능을 달성할 수 있음을 보여줍니다.
    • 두 번째 요점과 관련하여 이러한 모델의 web-scraped 사전 학습 데이터에는 사전 학습 기간 동안 반대 방향보다 긍정적인 감정에서 부정적인 감정으로 변경하는 작업과 유사한 문장이 더 많이 포함되어 있을 수 있습니다.
    • 질적으로 GPT-2 모델은 부정에 능숙해 보입니다. 
    • 따라서 이러한 모델이 P→N 방향에서 더 나은 결과를 산출한다는 것은 놀라운 일이 아닙니다.
    • 세 번째 요점에 관해서는 실측 데이터를 조사한 결과 일부 노이즈 레이블과 잘못된 입력-출력 쌍이 포함되어 있음을 알 수 있습니다.
  • Limitations. 
    • 순위 재지정 접근 방식의 주요 제한 사항은 언어 모델에서 여러 출력을 생성하는 것과 관련되어 여러 전달 전달이 필요하다는 것입니다.
    • 또한, 우리의 재채점 방법은 사전 훈련된 양방향 언어 모델(예: BERT)에 대한 액세스 권한에 의존합니다.
    • 바닐라 제로샷 접근 방식과 비교할 때 이러한 요소는 잠재적으로 이 모델을 실제로 배포하는 데 복잡성을 추가할 수 있습니다.

6 Conclusion

  • 이 논문에서 우리는 텍스트 스타일 전송을 위한 새로운 형식 프레임워크를 제안합니다.
  • 이 프레임워크는 텍스트를 임의의 스타일로 변환하기 위해 범용 사전 훈련된 언어 모델을 사용하는 Prompt-and-Rerank이라고 하는 새로운 방법으로 자연스럽게 이어집니다.
  • 우리의 실험에서 우리는 GPT-2와 같은 기성품의 사전 훈련된 "small" LM이 추가 모델 미세 조정 또는 프롬프트 조정 없이 임의의 텍스트 스타일 전송을 수행할 수 있음을 보여주기 위해 우리의 방법을 사용합니다.
  • 또한 전송 품질에 대한 광범위한 조사 프롬프트 구문 및 구분 기호 선택을 수행합니다.
  • 전반적으로, 우리는 우리의 작업이 이 분야의 추가 연구를 광범위한 연구자들이 더 쉽게 접근할 수 있기를 바랍니다.
    • 천억 매개변수 언어 모델의 계산 제약을 완화하고 임의의 텍스트 스타일 전송을 위한 표준 세트의 깨끗한 데이터 세트를 설정합니다.
Reference

댓글