ARR 202204-Review 1

0 Abstract

범용 사전 훈련된 언어 모델을 사용하여 텍스트를 주어진 스타일로 자동 변환하는 작업인 임의의 텍스트 스타일 전송(TST) 방법을 제안합니다.
Prompt-and-Rerank라고 하는 우리의 방법은 TST 작업의 새로운 수학적 공식을 기반으로 하며, TST 작업은 텍스트 유사성, 대상 스타일 강도 및 유창성의 세 가지 구성 요소로 분해됩니다.
특히, 우리의 방법은 먼저 대상 스타일의 candidate generations 집합을 얻기 위해 제로샷 또는 퓨어샷 프롬프트를 사용한 다음 위의 세 가지 구성 요소의 조합에 따라 이러한 후보의 순위를 재지정합니다.
Experimentally, our method enables small pre-trained language models to perform on par with state-of-the-art large-scale models while consuming two orders of magnitude less compute and memory.
실험적으로 우리의 방법은 작은 사전 훈련된 언어 모델이 최첨단 대규모 모델과 동등한 성능을 발휘하면서 컴퓨팅 및 메모리를 100배 덜 소모하도록 합니다.

이에 대해 계산 필요

마지막으로, 우리는 7개의 다양한 스타일 전송 데이터 세트에 걸쳐 스타일 전송 품질에 대한 모델 크기 및 프롬프트 디자인(예: prompt paraphrasing and delimiter-pair choice)의 효과에 대한 체계적인 조사를 수행합니다.
텍스트 스타일 전송에 대한 향후 연구를 용이하게 하기 위해 모든 코드와 데이터를 공개할 것입니다.

1 Introduction

TST(텍스트 스타일 전송)는 주요 의미 내용, 구조 또는 기타 속성을 변경하지 않고 텍스트 조각(예: sentiment attribute, formality, politeness 등)의 한 문체 측면을 전송하는 작업을 나타냅니다.
전통적으로 NLG(자연어 생성) 커뮤니티는 스타일 전송의 각 인스턴스화에 고유한 작업으로 접근하여 스타일별 교육 말뭉치에 대한 전문 모델을 설계하고 교육했습니다.
예를 들어, sentiment transfer은 광범위하게 연구되었습니다.

이 패러다임은 TST 연구를 병렬 말뭉치(parallel corpora)가 있는 제한적이고 간단한 스타일 선택 세트로 제한했으며, 이는 종종 단어 교체(예: 감정 전달을 위해 부정적인 단어를 해당하는 긍정적 단어로 교체)로 적절하게 해결할 수 있습니다.

그러나 최근 LM(범용 언어 모델링)의 성공으로 인해 보다 일반적인 스타일 전달 공식을 다룰 수 있는지 묻는 것이 당연합니다.

임의의 TST는 참조 텍스트를 추론 시 사용자가 지정한 임의의 스타일로 변환하는 것을 목표로 합니다.

다른 영역에서 자연어 프롬프팅의 성공에 영감을 받아 임의의 TST에 대한 프롬프팅 기반 제로 및 퓨샷 접근 방식을 고려합니다.
이 설정에서 소스 텍스트를 (그리고 선택적으로 소수의 사례에서 몇 가지 예) 포함하는 자연어 프롬프트를 사용하여 원하는 유형의 스타일 전달 문제를 지정한 다음 사전 훈련된 LM을 사용하여 양식화된 대상 텍스트를 생성합니다.
따라서 추가 교육이나 미세 조정 없이 소스 텍스트를 사용자가 지정한 스타일로 변환할 수 있습니다.
최근 연구(Reif 2021)에 따르면 1,750억 매개변수 GPT-3(Brown 2020) 모델과 독점 10억 매개변수 LLM 모델과 같은 초대형 언어 모델(LLM)이 sentiment and formality을 전달할 수 있습니다.
그러나 이 규모의 언어 모델은 메모리 소비가 크고 생성 시간이 느리기 때문에 inference-only settings에서도 대부분의 연구자와 실무자가 액세스할 수 없습니다.
지금까지 우리가 아는 한, 스타일 전달 영역에 대한 합리적인 크기의 모델 기능에 대한 연구나 프롬프트의 정확한 구성이 모델 성능에 미치는 영향에 대한 체계적인 연구는 없었습니다.
본 논문은 과거 작업과 달리 사전 훈련된 언어 모델을 사용하여 임의의 TST에 대한 first-principles approach을 취합니다.
먼저 작업을 수학적으로 공식화하여 textual similarity, target style strength 및 fluency의 조합으로 공식화할 수 있는 방법을 보여줍니다.

This framework naturally leads us to propose a new method for arbitrary TST, which we call “Prompt-and-Rerank.”

이 방법을 사용하여 우리는 처음으로 small language models을 사용하여 임의의 TST를 수행할 수 있음을 보여줍니다.

이전 작업은 거대한(즉, GPT-3 스케일) 언어 모델만이 이 작업을 수행할 수 있음을 나타냅니다.

We summarize the main contributions and insights of this paper as follows:

(i) 임의의 TST 작업의 첫 번째 수학적 공식화를 제공합니다.
(ii) 우리는 수학적 공식에서 자연스럽게 따라오는 임의의 TST에 대한 새로운 프롬프트 기반 방법인 Prompt-and-Rerank을 제안합니다.
(iii) 우리의 방법은 GPT-2와 같은 small LM을 사용하면서 임의의 TST에 대한 최첨단 성능과 일치하고 때로는 초과하기도 합니다.
(iv) task phrasing 및 delimiter-pair choice과 같은 prompt design이 스타일 전송 생성의 품질에 미치는 영향에 대한 미묘한(뉘앙스) 조사를 수행합니다.
(v) 해당 분야의 추가 연구를 장려하고 촉진하기 위해 수반되는 자동 평가 메트릭과 함께 임의의 TST(인기 감정 전달 데이터 세트 AMAZON 및 YELP의 정리된 버전 포함)에 대한 일련의 벤치마크를 설정합니다.

2 Background and Related Work

Background.

TST는 감정 및 형식 이전과 같은 많은 인기 있는 하위 작업을 포함하는 NLP의 오랜 문제입니다.
최근 몇 년 동안 대규모 사전 훈련이 도래하기 전에는 이러한 각 하위 작업을 개별적으로 고려하고 각 작업에 대해 서로 다른 supervised datasets 세트에서 별도의 모델을 훈련하는 것이 일반적이었습니다.
이러한 모델은 일반적으로 제한된 작업 범위 내에서 잘 수행되었지만 새로운 작업이나 교육 배포 외부의 텍스트로 일반화하는 데 실패했습니다.
그러나 최근 몇 년 동안 새로운 패러다임이 등장했습니다.

pretraining Transformer models on web-scale datasets and then fine-tuning or prompting them for downstream tasks.

이 작업에 대한 우리의 기여에는 이 새로운 패러다임을 사용하여 TST의 많은 하위 작업을 비교적 작은 Transformer 모델에서도 통합된 제로샷 방식으로 처리하는 방법을 보여주는 것이 포함됩니다.

Related Work.

TST에 대한 전통적인 접근 방식은 크게 두 가지 유형으로 분류할 수 있습니다.
첫 번째 패밀리는 독특한 style-related phrases를 식별하고 교체하는 것입니다.

예를 들어 Madaan(2020)은 먼저 TF-IDF를 사용하여 문체 속성이 있는 단어를 식별한 다음 이러한 문체 단어를 대상 속성과 연결된 단어로 대체하거나 보강하도록 모델을 훈련함으로써 politeness transfer 작업을 수행합니다.
일반적으로 이러한 접근 방식은 매우 간단한 스타일 편집(예: not이라는 단어를 추가하여 문장을 부정)에 잘 수행되지만 더 복잡한 구문 및 의미 변경이 필요한 시나리오에서는 어려움을 겪습니다.

두 번째 접근 방식은 스타일과 콘텐츠의 잠재된 표현을 분리하여 텍스트가 스타일 불변 표현으로 인코딩된 다음 원하는 스타일로 디코딩될 수 있도록 하는 것입니다.

예를 들어 Hu(2017)는 속성 판별자와 함께 VAE를 사용하여 스타일에 구애받지 않는 잠재 공간으로 인코딩하고 디코딩합니다.
이러한 접근 방식은 이론적으로 근거가 있는 경우가 많지만 일반적으로 많은 양의 레이블이 지정된 데이터가 필요하고 소수의 스타일 이상으로 확장하는 데 어려움을 겪습니다.

이 두 제품군과 달리 최근 한 작업(Reif 2021)은 NLP의 다른 영역에서 사전 훈련된 LM의 놀라운 성능에서 영감을 얻은 아이디어인 TST를 해결하기 위해 엄청난 사전 훈련된 언어 모델을 사용합니다.

특히 LLM, LLM-Dialog 및 GPT-3을 사용하며 각 매개변수에는 1000억 개 이상의 매개변수가 있어 다양한 스타일의 텍스트를 다시 작성합니다.
그러나 그들은 프롬프팅 설정에 대한 최소한의 분석을 수행하고 이러한 분석을 향후 작업으로 미루며 이러한 프롬프팅 기반 접근 방식은 LLM에서만 가능하다고 제안합니다.

이 논문은 사전 훈련된 언어 모델을 사용하여 텍스트 스타일 전달의 일반적인 작업에 대한 새로운 prompt-and-rerank 접근 방식을 제시합니다.
우리의 방법과 함께, 우리는 텍스트 스타일 전송 작업에 대한 prompt formulation 및 모델 크기에 대한 최초의 체계적인 연구를 제시합니다.
예상과 달리 우리의 방법을 사용하여 small LM도 임의의 스타일 전송을 효과적으로 수행할 수 있음을 발견했습니다.
실제로 우리는 메모리와 컴퓨팅을 100배 더 적게 사용하여 여러 데이터 세트에서 Reif(2021)의 성능을 일치시킵니다.

3 Method: Prompt-Based Arbitrary TST

이 섹션은 텍스트 스타일 전송 작업의 수학적 공식화로 시작합니다.
우리의 공식화는 작업의 세 가지 기본 구성 요소를 설명합니다.

text similarity, target style strength, and fluency

그리고 그것은 자연스럽게 우리를 style transfer 방법을 기반으로한 re-ranking-based prompt인 Prompt-and-Rerank로 이끕니다.

3.1 Problem Formulation

x ∈ Σ∗ 은 vocabulary Σ에 대한 text을 나타내고 S은 모든 가능한 text style 선택들의 set을 말한다.
우리는 x(s1) ∈ Σ ∗을 style s1 ∈ S에서 쓰여진 text x을 가리키는 것으로 사용한다.
비공식적으로, TST의 목표는 text x(s1)의 style 을 s1에서 s2로 변환하고, 이 때 텍스트의 주요 semantic context은 변하지 않아야한다.
우리는 공식적으로 다음의 함수를 통해 표현한다.

function f : Σ∗ × S × S → Σ∗
이는 input text (즉 x(s1))와 그에 해당하는 style (s1), target style (s1)을 취해서 s2의 스타일로 입력을 다시작성한 수정한 버전을 출력한다. 이를 x˜(s2)라고 부른다.

이상적으로, 우리는 생성된 출력 x˜(s2) = f(x(s1) , s1, s2)은 ground-truth x(s2)와 가능한 가까워야 한다 (의미적으로 구문적으로).

근데 gt가 데이터에 없는데?

그림 1에 표시된 그래픽 모델은 TST(및 해당 문제에 대한 기계 번역) 작업을 공식화하는 두 가지 다른 방법을 제공합니다.

텍스트 스타일 전송 작업에 대한 두 가지 다르지만 똑같이 meaningful and valid interpretations. 여기서 x는 텍스트의 보편적(추상) 의미로 생각할 수 있으며, x(s1)는 x를 s1 스타일로 다시 쓴 것입니다. 어떤 그래픽 모델을 고수하느냐에 따라 x(s2)는 x와 s2(왼쪽 모델) 또는 x(s1)와 s2(오른쪽 모델)에 의해 생성된다고 할 수 있습니다.

두 모델 모두 유효하고 의미 있는 의미와 해석을 가지고 있습니다.

그들 사이의 주요 생성 차이점은 전자(왼쪽)에서 x~(s2)의 parents가 x와 s2인 반면, x~(s2)의 부모는 후자(오른쪽)에서 x(s1)와 s2라는 것입니다.

임의의 TST에 대한 다양한 supervised 데이터를 수집하는 고유한 어려움으로 인해 대부분의 이전 연구는 source (s1) 및 target (s2) 스타일 선택이 미리 고정되어 있는 작업의 단순화된 버전을 고려했습니다.

즉 스타일을 여러개로 자유롭게 바꾸는건 데이터 수집의 어려움이 있어서, 고정된 스타일 2개만 쓴다는건가?

이 작업에서 우리는 작업의 광범위한 공식을 고려하고, 소스 및 대상 스타일 선택에 대해 선험적으로 가정하지 않으며, 임의의 TST를 수행하기 위해 off-the-shelf(기존의) LM의 힘을 어떻게 활용할 수 있는지 설명합니다.
target 스타일 s2와 s1 스타일로 작성된 입력 텍스트 x(s1)가 주어지면 생성된 출력 x~(s2)의 conditional likelihood을 세 가지 용어로 분해합니다.

P(B|A) = P(A교B)/P(B)인데 A교B를 위 식의 2번째 행처럼 쓴듯
교집합이란, 동시에 발생해야하는거이므로, 이를 저렇게 3번째 행의 비례식처럼 쓴거 같음
P(A교B)=P(A|B)P(B) 이므로, 4번째행으로 풀어서 적은 듯
마찬가지로 5번째 행으로 풀어서 적음

첫 번째 항인 p([x (s1) , s1] | [x~ (s2) , s2])는 입력 텍스트와 생성된 출력 간의 텍스트 유사성의 척도로 생각할 수 있습니다.

1번째항이 왜 textual similarity을 나타내지?
back-translation의 관점이 아닌가?

두 번째 항 p(s2 | x~(s2))는 출력의 전달 강도를 측정합니다 (즉, 출력이 대상 스타일로 작성되었는지 여부를 결정함).
마지막 항 p(x~(s2))는 생성된 출력의 전반적인 유창성을 측정합니다.

3.2 Controllable Generation with Prompt-Based TST

§3.3에 설명된 우리의 방법은 프롬프트 템플릿(§4.2)을 사용하여 입력 텍스트와 원하는 스타일 변환(및 소수의 경우의 소수의 예시)을 natural-language prefix로 변환합니다.
그런 다음 사전 훈련된 LM에 프롬프트를 입력하고 모델의 매개변수를 업데이트하지 않고 프롬프트에 따라 조건이 지정된 출력을 생성합니다.

프롬프트 설정을 보다 구체적으로 만들기 위해 실험에 사용된 템플릿 중 하나를 살펴보겠습니다. 이를 대조라고 하고 입력 요소를 프롬프트로 바꾸는 방법을 설명합니다. 이 템플릿의 형식은 간단합니다. "다음은 [s1]: {[x (s1) ]} 텍스트를 다시 작성합니다. [s2]: {"입니다. "{" 및 "}"는 각각 입력 텍스트와 생성된 출력 텍스트의 왼쪽 및 오른쪽 구분 기호를 나타냅니다.
If we have an input sentence x (s1) =“I love The Sound of Music; it is the best movie ever!!” with s1=positive and s2=negative, then the prompt under this template would be “Here is a text, which is positive: {I love The Sound of Music; it is the best movie ever!!}
Here is a rewrite of the text, which is negative: {” The language model would then generate an output by autoregressively decoding after the last delimiter, to produce a sentence such as: “I hate The Sound of Music; it is the worst movie ever!!}”
왜 footnote에 쓰지?

이러한 형태의 프롬프트는 모델의 작업을 컨텍스트화할 뿐만 아니라 필요한 모든 conditional 정보 (즉, 입력 문장, 소스 스타일 및 대상 스타일)를 입력 컨텍스트에 통합합니다.
프롬프트 템플릿은 모델에 구애받지 않으므로 사전 훈련된 LM을 즉시 사용할 수 있습니다.
특히, 우리의 실험은 이 접근 방식이 성공하기 위해 방대한 언어 모델이 필요하지 않음을 보여줍니다.

3.3 Prompt-and-Rerank Improving Generations

지금까지 우리는 모델이 하나의 출력 텍스트만 생성한다고 가정했습니다.
그러나 추가 계산 비용을 기꺼이 발생시킬 의향이 있는 경우 여러 후보 출력을 생성하고(예: 빔 검색 사용), 일부 메트릭에 따라 각각을 다시 채점하고, 가장 높은 점수를 가진 출력을 선택할 수 있습니다.
우리의 방법에서 이러한 점수는 자연스럽게 Eq(1)의 분해를 따릅니다.
우리의 방법은 두 단계로 구성되어 있습니다: prompting and re-ranking.
prompting 단계에서 LM에서 x~(s2)에 대한 k 후보 출력을 샘플링하여 p_forward(x~(s2) |[x(s1), s1], s2)를 추정합니다.

이제 X~(s2) = {x~(s2)1 , · · · , x~(s2)k } 가 LM에 의해 생성된 k 출력의 집합을 나타냅니다.
즉 빔서치로 생성한 후보들의 집합이 X~(s2)라는 것

re-ranking 단계에서 우리는 식 (1)을 사용하여 p_reranking(x~(s2) |[x (s1) , s1], s2) ∝ p([x ( s1) , s1]|[x~ (s2) , s2])p(s2|x~ (s2) )p(x~ (s2) ) 그런 다음 가장 높은 점수를 가진 x~ (s2) i ∈ X~ 선택 .

즉 prompting에서 생성된 후보들중에서, 점수를 식 1에서 보여준 것처럼 3가지 term을 계산해서 랭킹을 매긴다는 것
근데 식 1로부터 유추된 것인데 p_forward로 그냥 하는 것이라 뭐가 다른가? p_forward는 3가지 metric이 아닌 단순히 LM을 레버리징 한것
부록에 성능 비교는 있는거 같은데, 분석이 필요한듯
사용되는 모델이 다른건데 top-1보다 re-ranking 한 것이 더 좋다는 보장은?

remaining 단계는 re-ranking pass의 각 term를 계산하는 것입니다.
(i) 첫 번째 항을 계산하기 위해 BERT에서 사전 훈련된 문맥 임베딩을 활용하여 두 텍스트 간의 코사인 유사성을 측정하는 BERTScore를 사용합니다.

p([x(s1), s1]|[x~(s2), s2]) = BERTScore(x(s1), x(s2))라고 가정합니다.

(ii) 두 번째 항을 계산하기 위해 다음과 같이 사전 훈련된 RoBERTa 모델인 Masked LM(MLM)을 의도적으로 스타일 분류기로 전환합니다.

x~(s2)i ∈ X~(s2) 및 S = {s1, s2}가 주어지면 x~(s2)i를 사전 정의된 클로즈 템플릿을 통해 "fill-in-the-blank" cloze template으로 변환합니다.
즉, "The following text is ____: [x~(s2)i]"로 다시 작성합니다.
그런 다음 MLM에 쿼리하여 누락된 토큰을 예측하지만 원래 모델 어휘에 대한 확률 분포를 보는 대신 S의 elements에 attention를 제한하므로 누락된 토큰이 s1 또는 s2일 가능성을 고려합니다.
이 프레임워크의 한 가지 제한 사항은 스타일이 모델 어휘 아래에 고유한 토큰을 가지고 있다고 가정한다는 것입니다.
그런 다음 이 확률을 l1-normalization로 정규화하고 p(s2|x~(s2))에 대한 적절한 확률 분포를 얻습니다.
Of course, a more sophisticated normalization technique can be employed in this setup, but this basic normalization method seems to be sufficient in our experiments.
즉, zero-shot style classification을 하겠다는 것인데.. 이거에 대한 성능도 리포트되면 좋을 거 같음.

(iii) 마지막 term에 대해서는 GPT-2-Large(774M)를 사용하여 각 candidate 텍스트의 전체 likelihood을 결정합니다.
(iv) 이후에 (i), (ii), (iii)을 곱하여 각 후보자의 점수를 계산합니다.

모든 후보자의 순위를 다시 매기십시오.
그리고 최종 출력으로 가장 높은 점수를 가진 것을 선택합니다.
(iii)의 계산은 긴 시퀀스 또는 희귀 단어를 포함하는 시퀀스에 페널티를 주기 때문에 유창성 요소를 무시하는 reranking 방법도 고려합니다.
fluency을 normalizing하면 안되나? (기하평균과 같은)
모델에 의해 생성된 문장이 항상 유창하다고 가정하는 것은 잘못된 가정이라는 것을 알고 있습니다.

Figure 2 provides an abstract illustration of our re-ranking algorithm.

Prompt-and-Rerank 방법의 다이어그램. 입력 텍스트와 스타일 변환이 주어지면 먼저 프롬프트를 작성하고 사전 훈련된 언어 모델에 공급하여 빔 검색을 사용하여 프롬프트를 조건으로 하는 여러 출력 텍스트를 생성합니다. 그런 다음 Eq (1)의 세 축(텍스트 유사성, 스타일 전달 강도 및 유창성)을 따라 각 후보 출력의 점수를 다시 매깁니다. 재순위 점수가 가장 높은 후보를 출력으로 선택합니다.

4 Prompt Construction

실제로 프롬프트의 특정 구문이 모델 성능에 상당한 영향을 미친다는 것을 발견했습니다.
따라서 우리는 TST 세대의 품질에 대한 다양한 즉각적인 설계 선택의 영향에 대한 체계적인 조사를 수행했습니다.

4.1 Delimiter-Pairs

우리는 10개의 다른 text boundary markers (delimiter 쌍)를 실험했는데, 두 가지 범주로 나눌 수 있습니다.

opening and closing markers are identical (known as indistinguishable delimeters)
markers are different (known as complementary delimeters).

특히, 두 개의 구별할 수 없는 쌍(즉, 따옴표 및 대시)과 8개의 보완 쌍을 고려했습니다.

(1) 중괄호 {·},
(2) 대괄호 [·],
(3) 꺾쇠괄호 ⟨·⟩,
(4) 괄호(·),
(5) 인용 부호 " · ",
(6) 대시 – · –,
(7) 삼중 꺾쇠 괄호 ⟨⟨⟨·⟩⟩⟩,
(8) 대괄호 따옴표 ⟩ " · ",
(9) 별표 따옴표 * " · ", (10) 이중 중괄호 {{·}}.

(8), (9), (10)을 사용하여 Markdown에서 블록 인용문, 글머리 기호 및 유동 태그를 각각 모방한다.
그들의 실험에서 Reif(2021)는 중괄호만 사용합니다.

우리는 모델이 문장이 시작하고 끝나는 위치를 구별하고 이해하는 것이 범주적으로 더 쉽기 때문에 보완적인 구분 기호 쌍이 구별할 수 없는 것보다 더 나은 결과를 산출할 수 있다고 가정했습니다. 또한 다양한 컨텍스트(예: 코드 조각)의 교육 데이터에서 텍스트 분리자로 사용될 가능성이 더 높은 구분 기호 쌍이 더 나은 결과를 산출할 수 있다고 추측했습니다.
phrasing이 더 중요한거 아닌가? 이러한 부분도 중요한가보네?
실험적으로 보여주나?

4.2 Prompt Phrasing

discrete prompts에 대해 수동으로 작성한 네 가지 템플릿 형식을 고려했습니다.

[d1] 및 [d2]는 각각 선택한 delimiter-pair의 opening 요소와 closing 요소를 나타냅니다.

그들의 실험에서 Reif(2021)는 prompt의 후반부에 대상 스타일(s2)만 지정하는 바닐라 설정을 독점적으로 사용했습니다.

즉 Reif는 (a)만 사용했다는 것.
그러나 우리는 초기에 소스 스타일(s1)에 대한 유용한 정보를 제공하고 프롬프트 의미 체계에서 소스와 대상 스타일 사이의 명확한 대조를 생성하는 것이 사전 훈련된 LM이 작업의 기본 특성을 더 잘 이해하는 데 도움이 될 것이라고 추측하고 성능을 향상시킵니다.

따라서 우리는 contrastive setting도 살펴보기로 결정했습니다.

다른 두 negation templates의 경우 소스 스타일을 대상 스타일의 부정(즉, s1:="not s2")으로 지정하거나 그 반대로 지정하는 것이 모델 성능에 어떤 영향을 미칠 수 있는지 테스트하고 싶었습니다.

4.3 Zero-Shot vs. Few-Shot Settings

최근 몇 년 동안 GPT-3과 같은 LLM은 자신이 resourceful few-shot learners로 입증되었습니다.
few-shot learning 설정에서 모델은 종종 작업을 설명하는 자연어 프롬프트와 함께 예시적인 small set로 제공됩니다.

그리고 기본 작업을 이해하고 추론 시간에 모델의 가중치에 대한 기울기 업데이트를 수행하지 않고 정확한 예측을 수행할 것으로 예상됩니다.

우리는 demonstrations 수가 우리 모델의 성능에 어떤 영향을 미치는지 살펴보고 싶었습니다.
이를 위해 제로샷 및 four-shot 설정에서 모델의 성능도 테스트했습니다.

5 Experiments and Results

5.1 Datasets

단일 TST 하위 작업 또는 데이터 세트에 중점을 둔 대부분의 이전 작업과 달리 우리는 광범위한 TST 하위 작업에 대한 실험을 제시합니다(표 2에도 설명됨).

YELP: Sentiment transfer for Yelp reviews (Zhang et al., 2015)
AMAZON: Sentiment transfer for Amazon reviews (Li et al., 2018)
SHAKESPEARE: Elizabethan-to-modern translation for Shakespeare (Xu et al., 2012)
GYAFC: Formality transfer for Yahoo Answers responses (Li et al., 2018)
JFLEG: Grammar correction for student essays (Napoles et al., 2017)
SYM: Symbol-to-natural-language translation on a new custom synthetic dataset

우리 연구의 초기 단계에서 우리는 이러한 모든 데이터 세트(합성인 SYM 제외)가 깨끗하지 않거나 일관되게 토큰화되지 않았음을 확인했습니다.

이것은 범용 언어 모델을 사용하기 어렵게 만듭니다.

이 문제를 해결하기 위해 작성자는 이러한 데이터 세트를 수동으로 정리했습니다.
향후 연구를 용이하게 하기 위해 이 문서와 함께 공개할 것입니다.
부록에서는 원본 데이터셋과 정리된 데이터셋 모두에 대한 결과를 제시합니다.

5.2 Evaluation Metrics

스타일 및 감정 전달에 대한 이전 작업에서는 content/meaning preservation (textual similarity), style transfer strength, and fluency이라는 세 가지 차원에서 모델을 평가했습니다.
놀랍게도 이러한 차원은 위의 수학식 1에 나타나는 기준과 정확히 일치합니다.
Content Preservation.

BLEU는 의미론적 콘텐츠 보존을 측정하기 위한 표준 메트릭입니다.
SacreBLEU(SBLEU) 구현을 사용하여 reference-BLEU (r-SBLEU) 및 self-BLEU (s-SBLEU) 점수를 모두 계산합니다.
r-SBLEU는 실측 참조로부터 생성된 문장의 거리를 측정하는 데 도움이 되지만 s-SBLEU는 모델이 소스를 직접 복사하는 정도를 나타냅니다.

Transfer Strength.

TST 모델에 의해 생성된 출력이 대상 스타일의 속성을 가지고 있는지 확인하기 위해 standard classifier-based approach을 따릅니다.
관심 말뭉치에서 style classifier를 훈련하고 이를 사용하여 스타일이 대상 스타일과 일치하는 생성된 출력의 비율을 추정합니다.
어떤 모델을 classification으로 쓰는지?

Fluency.

생성된 텍스트의 유창함을 측정하기 위해 사전 훈련된 대규모 언어 모델(이 경우 GPT-2-Large)을 사용하여 평균 토큰 수준의 복잡도를 계산합니다.

왜 GPT2-Large을 쓰지?

이 PPL 기반 접근 방식은 자동화되고 실용적이라는 장점이 있지만 더 짧은 텍스트에 대한 편향을 포함하여 여전히 상당한 단점이 있다는 점에 유의해야 합니다.
fluency을 normalizing하면 안되나? (기하평균과 같은)

5.3 Model Choices.

We use seven variants of

GPT-2 with different sizes: Small (117M parameters), Medium (345M), Large (774M), and XL (1.6B),
GPT-Neo-1.3B Black (2021),
GPT-Neo-2.7B,
GPT-J-6B.

이러한 모델 중 어느 것도 미세 조정되거나 즉시 조정되지 않았음을 강조합니다.

5.4 Results

여기에서 우리의 주요 결과에 대한 요약을 제시합니다.
전체 결과를 보려면 독자가 부록(표 7-17)을 볼 것을 권장합니다.
표 3은 이전 작업과 비교한 YELP에 대한 결과를 보여줍니다.

어떤 deliminator, prompt을 사용한 모델인지? (표 3,4)

훈련이나 미세 조정이 아님에도 불구하고 우리의 방법은 이러한 작업을 위해 특별히 설계되고 훈련된 이전 모델과 경쟁력이 있습니다.
비교 논문들이 살짝 오래된거 같은데?

LLM보다 Ours GPT-J가 BLEU쪽 성능은 높고 PPL은 낮다. 왜 그런걸까?
BLEU 등에 대해 좀 더 자세한 분석이 필요해보임.
LLM보다 LM 성능은 떨어지지만, 이는 여러 개를 후보로 뽑아서 했기 때문에 좋아보인다.
그렇다면 속도 및 연산량 단점은 오히려 늘어날 수 있는거 아닌가?
Our accuracy and BLEU score estimates for them matched the numbers reported in previous work
그러면 classifier에 따라 acc 성능이 다른거 아닌가?

사실, supervised 방법과 비교할 때 우리 모델은 거의 항상 더 유창한 출력을 생성합니다 (perplexity로 측정).

독점적인 1370억 매개변수 LLM 모델을 사용하는 Reif(2021)와 비교하여 훨씬 더 작은 모델을 사용하더라도 동등하거나 유리하게 비교합니다.
우리는 "FirstChoice" 설정(단일 출력 사용)보다 더 나은 BLEU 점수를 얻었고 "BestBLEU" 오라클 설정보다 더 나은 정확도 점수를 얻었습니다 (which takes the best of 16 outputs, as measured by BLEU score using ground truth data).

표 4는 GPT-2-XL 및 GPT-J 모델에 대한 7가지 TST 데이터 세트 전체에 대한 결과를 요약한 것입니다.

GPT2, GPT-J비교했을때 LM이 좋다고해서 항상 좋은 결과를 보여주는거 같지는 않은데..?
그렇다면, 결국은 한 모델에서 여러 cand을 뽑는거보단 여러 모델에서 cand을 뽑아서 하는게 좋은거 아닐까?

모든 모델(GPT-2-Small부터 GPT-J까지)을 포함한 전체 결과는 부록을 참조하십시오.
대체로 모든 모델이 합리적인 수준으로 스타일을 전달할 수 있으며, 큰 모델(예: GPT-2-XL, GPT-Neo-2.7B, 467 GPT-J)이 작은 모델보다 성능이 좋습니다.

지속적으로 성능이 좋지 않은 유일한 모델은 GPT-2-Small입니다.
높은 s-sBLEU 점수와 낮은 정확도는 입력 텍스트의 긴 섹션(스타일 변경 없이)을 다른 모델보다 더 자주 복사한다는 것을 나타냅니다.

개별 작업을 살펴보면 JFLEG 작업에 상당한 개선 여지가 있음을 알 수 있습니다.

대부분의 모델은 변경 없이 입력 텍스트를 복사하는 단순한 기준선 성능이 저하되었습니다.

기준선은 GPT-J(40.0 획득)를 제외한 모든 모델보다 우수한 37.2 GLEU를 달성했습니다.
마지막으로 새로운 합성 작업인 SYM에서 GPT-J가 다른 모델보다 훨씬 더 나은 성능을 발휘한다는 것을 발견했습니다.

74% 정확도를 달성한 반면 다른 모델은 60% 수준 정확도를 초과하지 않았습니다.

모델이 올바른 출력을 생성하는 데 실패했을 때 우리는 입력 단어를 성공적으로 복사했지만 잘못된 논리(예: "greater than" 대신 "less than" 생성)를 사용하는 경우가 많았음을 발견했습니다.

5.5 Further Analysis and Discussion

Contrastive prompting generally improves style transfer quality.

표 5(부록의 표 17)에서 볼 수 있듯이, 이 백서에서 고려한 네 가지 프롬프팅 프로토콜 중에서 contrastive prompting이 항상 최고의 BLEU 점수는 아니지만 일반적으로 최고의 정확도를 산출했습니다.

Delimiter-pair choice has a large impact on model performance

10개의 다른 delimiter-pairs에 대한 우리의 체계적인 분석은 delimeter 선택이 생성된 출력의 품질에 실질적으로 영향을 미친다는 것을 보여줍니다.
모든 설정에서 가장 잘 수행되는 단일 쌍은 없지만 중괄호 {·}, 대괄호 [·], 괄호(·) 및 따옴표 " · "와 같은 특정 구분 기호는 두 AMAZON에서 일관되게 더 나은 결과를 산출했습니다. 및 YELP(표 7-10 참조).
너무 부록에 많은 내용이 있는 듯. 이 경우도
table 6에 대해 언급해야할듯
여기 테이블의 실험들은 어떤 delimiter을 기준으로 실험한 것인가?
차라리, 하나의 delimiter로만 실험을 하고 부록에 delimiter에 대한 설명을 넣는 것이 낫다.
이러한 마커의 강력한 성능은 우리 모델의 사전 훈련 데이터의 일부를 구성하는 에세이, 대화 및 코드 조각과 같은 다양한 텍스트 컨텍스트에서 텍스트 구분 기호(또는 구분 기호)로 자주 사용된다는 사실에 기인한다고 가정합니다. .

Re-ranking method improves overall performance.

우리는 두 가지 순위 재지정 접근 방식을 고려했습니다.
하나는 가장 높은 빔 점수로 생성된 출력을 선택하고 다른 하나는 빔 검색을 사용하여 모델에서 3개의 출력을 샘플링한 다음 §3.3에서 논의한 세 가지 기준에 따라 다시 점수를 매기는 것입니다. .
<표 12>와 <표 13>에서 보는 바와 같이 순위 재지정 방식은 감성 정확도를 10~30% 높일 수 있다.
항상 그런 것은 아니지만 종종 더 나은 BLEU 및 유창성 점수로 이어집니다.

Analysis of bias and transfer performance in opposite directions.

우리는 사전 훈련된 모델이 강한 방향 편향을 가지고 있음을 발견했습니다.
AMAZON 및 YELP에서 음수 → 양수(N→P) 및 양수 → 음수(P→N) 방향으로 이동할 때 동일한 성능을 발휘한 모델은 없습니다.
We offer three possible explanations for this phenomenon:

(i) The inherent differences in the linguistic difficulty of the tasks,
(ii) the potential biases in pre-training dataset(s), and
(iii) the poor quality of annotations in certain style transfer directions.

첫 번째 요점과 관련하여 감정 전달 데이터 세트의 정성적 검사는 어떤 경우에는 단순히 부정(예: "not")을 텍스트에 추가하여 우수한 P→N 성능을 달성할 수 있음을 보여줍니다.

두 번째 요점과 관련하여 이러한 모델의 web-scraped 사전 학습 데이터에는 사전 학습 기간 동안 반대 방향보다 긍정적인 감정에서 부정적인 감정으로 변경하는 작업과 유사한 문장이 더 많이 포함되어 있을 수 있습니다.
질적으로 GPT-2 모델은 부정에 능숙해 보입니다.
따라서 이러한 모델이 P→N 방향에서 더 나은 결과를 산출한다는 것은 놀라운 일이 아닙니다.
세 번째 요점에 관해서는 실측 데이터를 조사한 결과 일부 노이즈 레이블과 잘못된 입력-출력 쌍이 포함되어 있음을 알 수 있습니다.

Limitations.

순위 재지정 접근 방식의 주요 제한 사항은 언어 모델에서 여러 출력을 생성하는 것과 관련되어 여러 전달 전달이 필요하다는 것입니다.
또한, 우리의 재채점 방법은 사전 훈련된 양방향 언어 모델(예: BERT)에 대한 액세스 권한에 의존합니다.
바닐라 제로샷 접근 방식과 비교할 때 이러한 요소는 잠재적으로 이 모델을 실제로 배포하는 데 복잡성을 추가할 수 있습니다.

6 Conclusion

이 논문에서 우리는 텍스트 스타일 전송을 위한 새로운 형식 프레임워크를 제안합니다.
이 프레임워크는 텍스트를 임의의 스타일로 변환하기 위해 범용 사전 훈련된 언어 모델을 사용하는 Prompt-and-Rerank이라고 하는 새로운 방법으로 자연스럽게 이어집니다.
우리의 실험에서 우리는 GPT-2와 같은 기성품의 사전 훈련된 "small" LM이 추가 모델 미세 조정 또는 프롬프트 조정 없이 임의의 텍스트 스타일 전송을 수행할 수 있음을 보여주기 위해 우리의 방법을 사용합니다.
또한 전송 품질에 대한 광범위한 조사 프롬프트 구문 및 구분 기호 선택을 수행합니다.
전반적으로, 우리는 우리의 작업이 이 분야의 추가 연구를 광범위한 연구자들이 더 쉽게 접근할 수 있기를 바랍니다.

천억 매개변수 언어 모델의 계산 제약을 완화하고 임의의 텍스트 스타일 전송을 위한 표준 세트의 깨끗한 데이터 세트를 설정합니다.

Reference

https://arxiv.org/pdf/2205.11503.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-147, Prompt-and-Rerank: A Method for Zero-Shot and Few-Shot Arbitrary Textual Style Transfer with Small Language Models

0 Abstract

1 Introduction

2 Background and Related Work

3 Method: Prompt-Based Arbitrary TST

3.1 Problem Formulation

3.2 Controllable Generation with Prompt-Based TST

3.3 Prompt-and-Rerank Improving Generations

4 Prompt Construction

4.1 Delimiter-Pairs

4.2 Prompt Phrasing

4.3 Zero-Shot vs. Few-Shot Settings

5 Experiments and Results

5.1 Datasets

5.2 Evaluation Metrics

5.3 Model Choices.

5.4 Results

5.5 Further Analysis and Discussion

6 Conclusion

댓글

댓글 쓰기