0 Abstract

Text style transfer은 발화의 일부 속성만 변화하면서 발화를 생성하는 테스크이다.
이 테스크는 일관된 챗봇의 구현 및 writing 지원과 같은 응용 프로그램을 위해 최근 몇 년 동안 활발히 연구되었습니다.
그러나, 현재 텍스트 변화 기술은 제한된 스타일의 수와 같은 몇 가지 문제가 있고, transfer 정도를 조절하는데 어려움이 있다.
이 논문에서는, 우리는 자세히 스타일 변화의 정도를 조절하는 능력에 중점을 맞춘다.
이전 방법은 주로 반복 생성이거나, 또는 원본 텍스트의 속성 레이블이 필요하므로 transfer의 정도를 조정하는 비용이 증가합니다.
이러한 점을 감안하여 본 연구의 목적은 추론시 스타일 변환 정도를 쉽게 조절할 수 있는 방법을 제안하는 것이다.
훈련 데이터에서 대표적인 스타일 특징을 학습하고 추론하는 동안 연속 스타일 특징 공간에서 편집하여 이 문제를 해결합니다.
우리의 방법은 소스 텍스트의 속성 레이블과 반복 생성 없이 스타일 전송을 달성합니다.
우리는 서로 다른 데이터 세트의 여러 실험에서 제안된 방법의 효율성을 보여줍니다.
ARR 포맷

1 Introduction

모든 발화는 그것이 발화되는 상황과 관련이 있습니다.
발화가 이루어지는 상황은 발화 주체의 시간, 장소, 시나리오, 특성이다.
이러한 상황은 여러 속성으로 분류할 수 있습니다.

존칭형, 시제, 감정, 타인과의 관계, 텍스트의 장르 등이 그러한 속성의 예이다.
발화에는 이러한 속성과 관련된 특성이 있습니다.

발화를 x로 표시하고 발화의 이러한 속성을 a로 표시합시다.
이러한 발화 및 속성과 관련된 세 가지 주요 자연어 작업이 있습니다.
첫 번째는 p(a|x)를 모델링하여 발화로부터 속성을 예측하는 속성 예측 작업으로 오랫동안 연구되어 왔습니다.

예측된 속성에는 화자가 누구인지, 화자의 성별, 문장의 장르 등이 포함됩니다(Stamatatos, 2009; Garera and Yarowsky, 2009; Rao et al., 2010).

두 번째는 p(x|a)를 모델링하고 특정 속성을 가진 발화를 생성하는 스타일 조건부 언어 모델링이라는 작업입니다.

예는 특정 사람의 개인화된 트윗을 생성하는 데 사용할 수 있는 포옹 트윗 프로젝트입니다.

세 번째는 TST(텍스트 스타일 전송)라고 하며, p(x|a, x')를 모델링하고 소스 발화의 대상 속성과 관련된 특성(이 백서에서는 스타일이라고 함)을 변환한 다음 대상과 관련이 없는 다른 특성을 변환합니다.

속성(이 문서에서는 내용이라고 함).
예를 들어 "Gotta go ASAP"라는 솔직한 말을 "We have to leave as soon as we can."는 형식적인 연설로 바꾸는 것이 있습니다.

TST는 다양한 응용이 가능하며 최근 몇 년 동안 광범위한 연구 주제였습니다.

TST의 응용 프로그램 중 하나는 지능형 로봇의 음성을 보다 일관되게 만드는 것입니다.
TST는 다른 작업에서 생성된 음성을 후처리하는 도구로 사용할 수 있습니다.
또 다른 중요한 응용 프로그램은 지능형 쓰기 지원입니다.
글쓰기에 익숙하지 않은 사람들이 더 formally, 더 politely, 더 humorously하게 글을 쓰는 데 도움이 될 수 있습니다.

TST와 유사한 작업은 기계 번역 및 이미지 스타일 전송입니다.

기계 번역과 TST는 내용을 보존하면서 텍스트의 일부 속성을 변형한다는 점에서 유사한 작업이지만 변형할 속성의 변형 정도에 연속성이 있다는 점에서 다릅니다.
예를 들어 기계 번역 작업에서 영어 "This is an apple"은 일본어 "これはりんごです"와 동일하며 중간 결과가 없습니다.
그러나 TST에는 "We sit down and got some service."와 같은 중립적인 문장이 있습니다.
"We got a very nice place to sit down and received great service."와 같은 긍정적인 문장 사이에 있습니다.
"We sit down and we got some really slow and lazy service."와 같은 부정적인 문장.
즉, 스타일의 연속성이 있습니다.
이러한 스타일의 연속성은 텍스트 스타일 전달의 중요한 속성이며, 이를 조정할 수 있는 능력은 보다 자세한 텍스트 지원과 보다 상황에 맞는 대화를 제공할 수 있는 대화 에이전트로 이어질 것입니다.
실제로, 이렇게 해볼 서비스나 어플리케이션이 의미가 있는가?

이미지 스타일 전송과 텍스트 스타일 전송은 유사한 작업이지만 각 영역의 표현이 다릅니다.

텍스트는 이산 표현이고 이미지는 연속 표현입니다.
또한 텍스트의 스타일과 내용의 연결은 이미지보다 더 강력합니다.
따라서 이미지 스타일 전송에 비해 변환할 스타일의 수가 제한되어 있으며, 현재 스타일을 세부적으로 조정하기가 어렵습니다.

스타일 전달 정도의 연속성에 초점을 맞추고 대상 속성의 변형 정도를 제어할 수 있는 텍스트 스타일 전달 모델을 제안한다.

이전 방법은 주로 반복 생성 또는 원본 텍스트의 속성 레이블이 필요하므로 변환 정도를 조정하는 비용이 증가합니다. (이러한 레이블이 필요하다는거?)
이러한 문제를 해결하기 위해 우리의 방법은 style features을 continuous space에서 벡터로 취급하고 모델 가중치와 동시에 훈련 샘플에서 학습합니다.
추론하는 동안 우리 모델은 single scalar로 스타일 기능을 편집하여 스타일 전달 정도를 조정합니다.

The contributions of this study are as follows.

우리는 디코더에 대한 대표적인 style features을 훈련 데이터에서 연속 공간의 벡터로 학습하고 훈련 및 추론 중에 동일한 작업으로 변환을 수행하는 파이프라인을 개발했습니다.
우리의 방법은 원본 텍스트의 속성 정보 없이 한 번의 작업으로 스타일 전달 정도를 제어할 수 있습니다.
원본 텍스트의 속성을 알아야 해서 더 좋은 속성을 조절할 수 있다면 큰 단점은 아닌 거 같은데..?

We conduct experiments on text style transfer and show the transfer performance and controllability of our method.

2 Related Research

텍스트 스타일 전송은 최근 몇 년 동안 널리 연구되고 있는 작업으로, 텍스트의 특정 속성은 변형되고 다른 특징은 보존됩니다.
텍스트 스타일 전송 작업에는 세 가지 주요 문제 설정이 있습니다.
너무 관련 연구가 긴데...?

2.1 Supervised Text Style Transfer

감독된 텍스트 스타일 전송은 병렬 텍스트라고 하는 서로 다른 스타일로 표현된 동일한 내용의 문장 쌍이 있는 문제 세트입니다.
Auto Encoder, VAE(Kingma and Welling, 2014), GAN(Goodfellow et al., 2014)과 같은 많은 방법이 Encoder-Decoder 아키텍처를 기반으로 합니다.
감독된 집합이 높은 전송 성능을 달성할 수 있는 반면 감독된 스타일 전송 방법은 생성하기 어려운 서로 다른 스타일의 발화 쌍이 필요합니다.
이 문제를 해결하기 위해 데이터 증강을 사용하여 데이터의 양을 확장하고 소량의 병렬 데이터로부터 학습하는 방법이 있습니다(Rao and Tetreault, 2018).

2.1.1 Unsupervised Text Style Transfer

문단이 잘못된 거 같은데?
Unsupervised text style transfer는 병렬 텍스트가 없는 텍스트 레이블 쌍(x, a)에서 스타일 기능을 학습하여 텍스트 스타일을 변환하는 방법입니다.
감독되지 않은 텍스트 스타일 전송의 주류 방법 중 하나는 대상 텍스트 및 기타 기능의 속성과 텍스트 정보의 분리를 사용하는 것입니다.
1) disentanglement 기반 방법의 대부분은 adversarial training(Goodfellow et al., 2014)을 사용하여 disentanglement 표현을 학습하고 생성 시점의 스타일 특징만 변환 및 편집하여 스타일 전달을 실현합니다.
2) 일부 접근 방식은 콘텐츠 기능에서 스타일 기능을 분리하지 않고 정적 스타일 벡터를 생성기에 입력하여 스타일 전달을 달성합니다(Logeswaran et al., 2018; Fu et al., 2018; Lample et al., 2019).

이러한 방법에서 각 속성의 대표적인 스타일 기능은 일대일 대응을 갖는 이산 벡터로 생성기에 입력되는 경우가 많습니다.

3) 명시적으로 편집할 단어를 다루는 프로토타입 기반 편집 방법도 있습니다. DAR은 대표적인 작품이다.

이 방법에서는 원본 텍스트의 속성 마커인 단어를 삭제하고 대상 속성의 말뭉치에서 얻은 유사한 단어로 보완하여 텍스트 스타일 전달을 달성합니다.
이 방법은 발화의 잠재된 표현 h를 명시적으로 다루지 않고 단어 수준에서 편집한다는 점에서 위의 두 방법과 크게 다릅니다.
편집하고자 하는 단어의 미세조정은 가능하나 전체 문장의 구조를 변형하기 어려운 단점이 있다

2.2 Few-shot Text Style Transfer

Few-shot 텍스트 스타일 전송은 스타일 전송을 수행하기 위해 학습 중에 텍스트 x만 사용하고 추론 중에 레이블이 지정된 적은 수의 발화를 사용하는 작업입니다.
Riley(Riley et al., 2021)에서는 훈련 데이터 세트의 전후 문장이 유사한 스타일을 가지며 생성에 사용되는 속성을 사용하여 훈련 중에 의사 스타일 특징을 추출합니다.
추론하는 동안 대상 속성으로 레이블이 지정된 소수의 텍스트에서 대상 속성의 대표적인 스타일 특징을 계산하고 생성에 사용합니다.

2.3 Adjusting the Degree of Style Transfer

문장의 문체 번역에 관한 일부 연구에서는 문체 번역의 변형 정도를 조정하는 문제를 다루었다.
Lample(Lample et al., 2019)은 훈련 중 Auto Encoder loss 및 Back Translation loss weights의 하이퍼파라미터를 조정하여 스타일 전송 정도와 콘텐츠 보존 정도 사이의 균형을 조정합니다.

초매개변수를 조정하는 방법은 트레이드오프의 정도를 변경하기 위해 재교육이 필요하므로 계산 비용이 증가합니다.

TST의 일부 방법을 사용하면 추론하는 동안 전달 정도를 조정할 수 있습니다.
다음에서는 가장 인기 있는 두 가지 방법을 소개합니다.

2.3.1 Fast Gradient Based Manipulation

Fast Gradient-Based Manipulation은 사전 훈련된 속성 판별자의 기울기를 사용하여 잠재 변수를 업데이트하는 방법입니다.
단일 작업에서 잠재 변수는 고정된 단계 크기만큼 판별 기울기 방향으로 이동합니다.
이 작업은 목표 잠재 변수를 얻을 때까지 반복됩니다.
각 편집에 의해 얻어진 잠재변수 hˆ는 2.3.1을 따라 획득된다.

2.3.1은 이 섹션이라 적절한 표현이 아니다.
figure 1을 말하는 것인가?

Fast Gradient-Based Manipulation은 판별식의 기울기를 이용하여 잠재변수를 조작하기 때문에 원본 텍스트의 속성 정보가 필요하지 않지만 목표 결과를 얻기 위해서는 반복적인 연산이 필요하다.
이것은 related works가 아닌 다른 곳에 가야할거 같은데? --> 이 논문에서 쓴 방법은 아닌듯

2.3.2 Vector Arithmetic Based Manipulation

벡터 산술 기반 방법은 특정 속성을 가진 발화의 잠재 변수의 평균 벡터를 사용하여 텍스트 스타일 전달 및 텍스트 보간 작업에서 잠재 변수에 대해 선형 연산을 수행하는 방법입니다.
Zhao(Zhao et al., 2018)와 Shen(Shen et al., 2020)은 이 접근 방식을 사용합니다.
특히, 소스 텍스트의 잠재 표현 h는 표현식 2.3.2에서와 같이 스타일 편집 벡터 v에 의해 수정됩니다.

2.3.2는 이 섹션을 의미하는데 figure 2을 말하는 것인가?
발화 전체의 평균이면 context 정보도 포함할텐데 노이즈하지 않은가?
attribute 부분만의 평균은 못 구하는 것인가?
테스트때는 처리가 가능한 방법인가?

예를 들어, 소스 텍스트의 속성이 positive라고 가정합니다.
속성이 양수에서 음수로 이전되면 h는 h - v만큼 업데이트되고 속성이 다음에서 이전되면
음수에서 양수로, h는 h + v로 업데이트됩니다.
Shen(Shen et al., 2020)에서 특정 속성에 대한 스타일 벡터 h는 소스 속성이 있는 고정된 수의 샘플과 검증 데이터세트.
벡터 산술 기반 조작은 Few-shot TST 설정에서도 사용됩니다.
그러나 이러한 방법은 유추할 때만 스타일 기능을 사용하며 이 작업이 스타일 정보를 적절하게 변경한다는 보장은 없습니다.
또한 벡터 산술 기반 조작에는 원본 텍스트의 속성 레이블이 필요합니다.

2.4 Positioning of This Study

우리의 방법에서 우리는 기존 방법의 일부와 같이 추론 동안뿐만 아니라 훈련 중에 디코더에 대표적인 스타일 기능을 명시적으로 처리합니다.
그러나 우리의 방법은 입력 스타일 특징이 고정된 이산 벡터가 아니라 훈련 데이터에서 학습된 매개변수라는 점에서 기존 방법과 다릅니다.
이 방법은 입력 문장의 속성 레이블과 반복 조작이 필요 없다는 점에서 추론하는 동안 특징을 조작하는 기존 방법보다 우수합니다.
또한, 우리의 방법은 훈련 및 추론 동안 연산 일관성을 갖습니다.

3 Proposed Method

3.1 Overview of the Proposed Method

이 섹션에서는 우리가 작업하고 있는 작업과 목표를 공식화합니다.
우리는 x를 소스 텍스트로 취하고 대상 속성의 레이블 a로 (x, a)와 같은 입력을 받습니다.
예를 들면 a는 시제와 감정이 있습니다.
문장 x는 잠재변수 h로부터 생성되며, h는 대상 속성과 관련된 특징인 s와 대상 속성과 무관한 특징인 c로 구성된다.

즉, h = [s, c]입니다.
s: target atrribute의 related feature
c: target attribute의 unrelated feature
이걸 어떻게 학습하지? --> 식5

목표는 c를 유지하면서 속성 a'를 조건으로 하는 발화 x' ∼ p(x'|c, a')를 출력하는 것입니다.
대부분의 기존 작업에서 이 스타일 특징 s는 속성 레이블에 일대일 대응하는 이산 벡터 표현으로 표현됩니다.

이러한 벡터들 사이의 거리 관계는 이러한 방식으로 스타일을 표현할 때 의미가 없기 때문에 이러한 벡터를 편집하여 스타일 전달 정도를 제어하기가 어렵습니다.

관련 연구 섹션에서 소개된 Vector Arithmetic-Based 및 Fast Gradient Based 방법은 학습 중 속성과 관련된 스타일 기능을 명시적으로 다루지 않고, 판별자 및 속성 레이블이 지정된 데이터를 사용하여 추론하는 동안 스타일을 변환합니다.
이러한 방법은 매우 다재다능하지만 추론하는 동안은 훈련하는 것과 다른 작업이 필요하며 스타일 기능을 조작하여 스타일 전송 및 콘텐츠 유지 관리를 수행할 수 있다고 보장하지 않습니다.
이러한 문제를 해결하기 위해 대표적인 스타일 특징을 명시적으로 처리하여 훈련 시부터 디코더에 입력하고자 합니다.

스타일 특징이 이산 정적 표현인 이전 방법과 달리 우리 방법은 모델 가중치와 동시에 스타일 특징을 학습합니다.

대표적인 스타일 특징을 동적 매개변수로 처리하여 연속 공간에서 스타일 특징의 조작을 디코더에 의미 있게 만드는 것을 목표로 합니다.
우리의 방법에서 각 속성에 대한 대표적인 스타일 특징은 수학식 1과 같은 속성을 가진 항목의 평균 스타일 벡터로 계산되는 연속 매개변수입니다.

여기서 sˆa는 스타일 a의 대표적인 스타일 특징 벡터이고, Xa는 속성 a를 갖는 문장의 집합이다.

학습 데이터로부터 학습된 각 속성의 대표 스타일 벡터는 학습 중에 디코더에 입력되고, 디코더는 이러한 스타일 벡터를 생성하는 데 사용하도록 학습됩니다.
또한 같은 속성의 문체 특징을 서로 가깝게 하여 문장의 문체 특징이 더 구별되게 하기 위해 추가적인 목적을 사용하였다.

그런 다음 추론하는 동안 대상 속성의 스타일 특성을 디코더에 입력하여 스타일 전달을 수행할 수 있습니다.
스타일 전달 정도를 조절하기 위해 대상 속성의 대표 스타일 특징과 입력 문장의 스타일 특징 벡터 사이의 벡터를 입력 스타일 특징으로 사용한다.

우리의 방법은 벡터 산술 기반 방법과 같은 소스 문장의 속성 정보와 빠른 기울기 기반 방법과 같은 반복 생성이 필요하지 않습니다.
Lample에서와 동일한 인코더-디코더 LSTM 아키텍처를 사용했습니다.
속성 판별자는 MLP로 구성됩니다.

3.2 Training Pipeline

위에서 설명한 스타일의 대표 벡터를 사용하여 두 종류의 학습 파이프라인을 구성했습니다. 하나는 disentanglement 기반 방식이고 다른 하나는 DAE(Denoising Auto Encoder) 기반 방식이다. 자세한 방법은 아래에 설명되어 있습니다.

3.2.1 Disentanglement Based Method

그림 3은 disentanglement기반 방법의 전체 파이프라인 다이어그램을 보여줍니다.

오타

s가 reltaed feature인데, 이것을 식1처럼 해서 넣는다는 것 같은데..?

인코더에는 style feature s를 출력하는 인코더 es와 문장 x를 입력으로 사용하여 context features c를 출력하는 인코더 ec가 있습니다.
학습 시 target 속성 a_target이 샘플링됩니다.
s는 대상 스타일 sˆ_atarget의 대표 스타일 특성으로 교환되고 sˆ_atarget과 c는 디코더에 입력됩니다.
디코더는 변환된 텍스트 x_transfer를 출력합니다.
그런 다음 xt_ransfer를 인코더에 다시 입력하여 s_transfer 및 c_transfer를 구합니다.
원래 입력 문장 s^_asource 의 스타일의 대표 벡터와 s_transfer를 교환하고 s^_asource 및 c_transfer를 디코더에 입력하여 재구성된 x_reconstruct를 얻습니다.
목적 함수는 AE Loss, BT(Back Translation) Loss, Classification Loss, Center Loss로 구성됩니다.
AE 손실은 자동 인코더의 목적 함수로 수학식 2와 같이 계산됩니다.

이 목적 함수는 내용 c와 스타일 s가 모두 입력 문장의 내용일 때 입력 문장을 재구성하는 방법을 학습합니다.

BT Loss는 식3으로 계산된 Back Translation Loss로, 스타일 번역과 기계 번역에 사용되는 Online Back Translation 방법의 목적 함수입니다.

일반적인 BT와 다른게, 여기서 s^_a가 식 1에서 보는 것처럼 target 문장풀에서 attribute relate features을 뽑아서 그것의 평균으로 대체하는 식이다.

우리의 방법은 적대적 훈련을 사용하지 않고 disentanglement을 달성합니다.

어떻게 그러지? --> 식5
Classification 손실은 s에 속성 레이블과 관련된 기능이 있는지 확인하기 위해 스타일 기능 s에서 입력 문장의 속성을 예측하는 목적 함수입니다.

Content Consistency Loss는 식 5에서와 같이 입력 문장의 콘텐츠 특성 c가 변환된 문장 x_transfer의 c_transfer와 일치하도록 하는 목적입니다.

목표는 콘텐츠 기능이 속성과 독립적이도록 인코더를 훈련하는 것입니다.
이렇게하면 ec에 style 정보가 빼서 인코딩된다는 것이군?

식 6에 나타낸 Center Loss는 스타일 특징 벡터가 스타일 특징 공간에서 서로 가까운 동일한 속성과 연관되도록 대표 스타일 벡터와 스타일 특징 벡터 사이의 거리에 주어진 목적이다.

이 손실의 목표는 같은 속성의 스타일 특징을 서로 가깝게 임베딩하여 구별하기 쉬운 스타일 특징을 얻는 것입니다.
이렇게하면, es가 각 샘플이 식 1에서 구한 s^_a와 유사하게끔 한다는 것
즉, es는 같은 style을 가지는 문장은 es을 통과하면 같은 vector로 되게 한다는 것
하지만, 이렇게하면 다른 속성을 가진 x1와 x2사이의 es(x1) <-> es(x2)의 다름성을 보장할 수는 없는데?

총 목적 함수는 다음과 같습니다. 각 λ는 각 손실의 균형을 맞추는 하이퍼파라미터입니다.

3.2.2 DAE Based Method

DAE(Vincent et al., 2008)는 입력에 노이즈를 추가하여 Auto Encoder를 훈련하고 강력한 임베딩을 학습하는 것을 목표로 합니다.
DAE 문장 생성 모델에서 인코더는 잡음이 있는 문장 xc를 입력으로 사용하고 잠재적 특징 h를 출력합니다.

xc: noised sentence
noise는 어떻게 추가하는가?
디코더는 h를 입력으로 사용하여 입력 문장 x를 재구성하도록 훈련되었습니다.

Lample (Lample et al., 2019)은 DAE 프레임워크를 사용하여 스타일 전송을 구현했습니다.

입력에 노이즈를 추가함으로써 잠재적 특징 h가 충분한 특징을 가지는 것을 방지하고, 디코더에 추가 특징을 입력함으로써 디코더는 추가 특징을 세대 동안 사용하도록 훈련된다.

TST에서는 스타일 특성을 추가 특성으로 사용하며 추론하는 동안 디코더에 대상 스타일 특성을 추가하여 스타일 전달을 달성합니다.
Lample과 같은 방법으로 단어 삭제 및 교체를 노이즈로 수행했습니다(Lample et al., 2019).

우리 모델은 인코더, 디코더 및 스타일 인코더 MLP로 구성됩니다.

입력 텍스트 x의 인코더 출력 entangled latent vector h와 스타일 인코더 MLP는 식 1에서와 같이 representative style features을 업데이트하는 데 사용되는 잠재 벡터 및 출력 스타일 특징 s를 취합니다.
디코더는 잠재 특성 h와 대상 스타일 특성 sˆatarget으로부터 입력 문장 x를 재구성합니다.
DAE의 목적 함수는 수학식 8에 나와 있습니다.

DAE의 e는 어떤 e인가?
여기서 식 2처럼, h에서 x를 재구성하는데, h가 원래는 [s,c]로 [e_s(x), e_c(x]였다.
단지 [e_s(x_c), e_c(x_c)]로 바뀐 것인가?

In our method, BT Loss and Center Loss are added to the objective function in addition to DAELoss. The final objective function becomes equation 9.

여기서 BT, center loss가 사용되는데, 여기서 ec, es가 사용된다.
DAE의 e가 새로운 e라면 ec와 es는 왜 학습이 되는가? 스타일 트랜스퍼에 효과가 있는것인가?

3.3 Transfer Styles During Inference

추론하는 동안 디코더에 입력된 스타일 특징은 다음 식 10과 같이 단일 스타일 전달 정도를 조정하는 스칼라 θ를 사용하여 조작됩니다.

스타일 변화할 때, target 속성을 가진 샘플들의 평균인 s^_atarget을 그대로 이용하지는 않고, theta값으로 본 문장의 s을 이용해서 interpolation 한다는 것이다.
이러한 방법은, 기존의 style을 interpolation을 하는 것과 크게 다른 점이 없어 보이는데? SST에서도 이렇게 했기 때문

우리의 방법은 하나의 스타일 전달 연산만 필요하며 기존의 Fast Gradient Based 및 Vector Arithmetic-Based 방법과 같이 벡터 공간에서 반복적인 연산이 필요하지 않습니다.
원본 텍스트의 조작된 스타일 특성 s'와 내용 특성 c를 사용하여 디코더는 문장을 생성합니다.

4 Experiment

이 장에서는 여러 데이터 세트에서 텍스트 스타일 전송을 실험하고 방법을 평가합니다.
DAE 기반 방법인 Lample(Lample et al., 2019)과 Prototype 편집 기반 방법인 DAR에서 비교 방법으로 DAE 기반 방법을 사용합니다.
속성을 완전히 변형시키는 실험을 한 후, 스타일 전이 정도를 조절하는 실험을 수행하여 우리 방법이 텍스트의 스타일 전이 정도를 조절할 수 있음을 보여주었다.

4.1 Dataset

Yelp 레스토랑 리뷰 데이터 세트(Shen et al., 2017)와 Amazon 리뷰 데이터 세트(He and McAuley, 2016)를 사용했습니다.
Yelp 레스토랑 리뷰 데이터 세트는 레스토랑 및 비즈니스 리뷰로 구성됩니다.
데이터 세트에는 270만 개의 훈련 샘플, 10,000개의 검증 샘플 및 10,000개의 테스트 샘플이 포함되어 있습니다.
Amazon 리뷰 데이터 세트에는 Amazon 제품 리뷰, 7,500만 개의 교육 샘플, 10,000개의 검증 샘플 및 10,000개의 테스트 샘플이 포함되어 있습니다.
Yelp 및 Amazon 데이터 세트 모두 Lample의 연구에서와 같이 평가 점수가 4 이상인 리뷰는 긍정적인 샘플로 간주되고 평가 점수가 2 이하인 리뷰는 부정적인 샘플로 간주되었습니다.

점수 2~4 사이는 데이터를 버리는가?

또한 Shen(Shen et al., 2017)은 15단어 이하의 샘플만을 다루었지만 우리는 Lample(Lample et al., 2019)에서와 같이 최대 100단어 이하의 샘플을 사용했습니다.

4.2 Experiment Setup

Adam Optimizer(Kingma and Ba, 2017)를 사용하여 각 데이터 세트를 200회 반복 학습했습니다.
실험 설정에 대한 세부 정보는 부록 A에 나와 있습니다.
우리는 약 일주일 동안 단일 NVIDIA A100에서 모델을 교육합니다.
우리는 모든 (방법, 데이터 세트) 쌍에 대해 실험을 수행하고 평가를 위한 검증 샘플에서 최상의 결과를 가진 반복 모델을 선택합니다.

4.3 Evaluation Metrics

텍스트 스타일 전달은 주로 스타일 전달 정도, 콘텐츠 유지 정도, 유창성 정도의 세 가지 축을 사용하여 평가됩니다.
스타일 전송은 원본 텍스트의 속성이 올바르게 변환되었는지 여부를 측정하는 것입니다.
속성 변환 정도는 훈련된 속성 판별자의 판별 정확도(S-ACC)를 사용하여 측정됩니다.

어떤 판별자로 모델을 학습했는가?

콘텐츠 보존은 원본 텍스트의 콘텐츠가 얼마나 잘 보존되었는지를 측정한 것입니다.

n-gram 통계를 사용하는 BLEU score와 BERT 언어 모델을 사용하는 BERTScore를 사용하여 측정됩니다.

유창성은 생성된 문장의 문법적 정확성과 언어적 자연스러움의 척도입니다.

사전 훈련된 가중치가 게시된 GPT2 언어 모델을 사용하여 Perplexity 점수를 계산합니다.

4.4 Style Transfer

제안된 방법의 스타일 전달 성능을 보여주기 위해 언급된 두 데이터 세트에 대해 TST 실험을 수행했습니다.

사용된 데이터 세트가 고정되어 있지 않기 때문에 비교 방법은 우리의 재구현을 기반으로 합니다.

자동 평가 결과는 하기 표 1과 같다.
우리의 방법은 기준 방법과 비교하여 스타일 이전 정도와 콘텐츠 보존 정도 사이에서 더 낫거나 비슷한 절충안을 보여줍니다.
구체적으로, 풀기 기반 방법은 스타일 전달 정도가 조금 더 높고 콘텐츠 보존성은 약간 낮고 복잡도는 더 높은 것으로 나타났다.
DAE 기반 방법은 더 나은 혼란과 스타일 전달 정도를 보여줍니다.
우리의 방법은 스타일 전달의 정확성을 향상시키는 것을 목표로 하지 않기 때문에 우리 방법은 수용 가능한 변환 성능을 보여주는 데 성공했다고 말할 수 있습니다.

4.5 Human Evaluation

자동 평가 외에도 생성된 문장을 사람의 평가로 평가했습니다.
평가는 제안된 DAE 기반 방법과 두 가지 비교 방법(DAE(Lample et al., 2019), DAR(Li et al., 2018))을 사용하여 Yelp 리뷰 데이터 세트의 테스트 데이터 샘플에 대해 수행되었습니다.
생성된 문장은 5점 척도로 수동으로 평가됩니다.
스타일 전달 정도, 내용 유지 정도, 유창성, 종합 평가의 4개 축 각각은 1(매우 나쁨)에서 5(매우 좋음)까지 5점 척도로 평가되었습니다.
긍정에서 부정으로 변환된 120개의 문장과 부정에서 긍정으로 변환된 또 다른 120개의 문장을 준비했습니다.
평가에는 Amazon Mechanical Turk(https://requester.mturk.com/)를 사용했습니다.

평가자의 질을 확보하기 위해 미국에 거주하며 과제 수락률이 90% 이상인 평가자만 선정하였다.
평가 결과를 표 2에 나타내었다.
내용보존 및 종합평가에 대한 평가결과는 비교방법에 비해 약간 우수하였고, 다른 평가축에 대한 결과는 유사하였다.
거의 차이가 없음.

자동 평가와 유사하게 우리 방법은 인적 평가에서 비교 방법과 동일한 수준의 스타일 전달 성능을 보인다고 할 수 있습니다.

4.6 Generated Sentences

정성적 평가를 위해 생성된 문장의 샘플은 아래 표 3과 같다.
대조적으로, 우리의 방법으로 변형된 문장은 속성 독립적인 문장 구조를 유지하면서 단어와 형용사의 변화를 보여줍니다.
옐프 리뷰에서 긍정문을 부정문으로 바꾸면 형용사는 부정문으로 바뀌고 속성독립접속사와 명사는 그대로 유지된다.
표 4는 우리 방법으로 실패한 전송 결과를 보여줍니다.

첫 번째 예에서는 "나쁜 서비스"를 "훌륭한 서비스"로 성공적으로 변환했지만 "콜드 슬라이더와 감자 튀김"은 변환하지 않았습니다.

이 예와 같이 단어 자체에서 속성을 예측할 수 있는 단어는 변환하기 쉽지만 상식과 문맥이 필요한 속성을 가진 단어는 변환하기 어려울 수 있습니다.
어떤 경우에는 두 번째 예와 같이 시스템이 선행 접속사와 후행 접속사의 관계를 잘 학습하지 못하고 문장을 정접속사로 바꾸어도 접속사가 역설적으로 남습니다.

positive --> negatvie 인거 같은데? 오타?

따라서 논리적 일관성을 유지하는 방식으로 문장을 변형하는 것은 어려운 것 같습니다.
상식을 필요로 하고 논리적 일관성을 유지하는 그러한 전송은 향후 작업의 주제가 될 것입니다.

4.7 Adjusting the Degree of Style Transfer

균형 매개변수에 의해 문장의 변형 정도가 조절될 수 있음을 보여주기 위해 여러 균형 매개변수를 이용한 문장의 문체 변환 결과는 표 5와 같다.

근데 이거를 해서 어따가 활용하는거지?
평가보면 이 방법때문에 스타일 변화가 더 잘일어나는 것도 아닌거 같은데

균형 매개변수를 0에서 1로 증가시켜 문장을 생성했습니다.
비교로 우리는 변환하는 동안 유사한 방식으로 편집된 속성 벡터가 주어진 DAE(Lample et al., 2019) 방법을 사용하여 훈련된 모델의 결과를 보여줍니다.
그림 4는 저울 매개변수가 변경됨에 따른 S-ACC의 값을 보여줍니다.
그림 4와 같이 우리의 방법에서는 움직임의 정도를 조절하는 균형 매개변수가 증가할수록 문장 변형의 정도가 점차 증가하고, S-ACC는 지속적으로 증가한다.
이에 반해 비교방식에서는 스타일이 지속적으로 변화하지 않고 변형도 0.5 부근에서 급격하게 변화한다.
Balance 파라미터를 변경한 정성적 결과는 Table 5와 같다.
변형 정도를 조절하는 파라미터가 증가할수록 변형어의 비율이 증가함을 알 수 있다.

5 Conclusion

본 연구에서는 스타일 전달 정도를 조절할 수 있는 텍스트 스타일 전달 모델을 개발하였다.
우리의 방법은 각 속성에 대한 대표 스타일 기능을 명시적으로 다루지만 이전 연구와 달리 대표 벡터도 학습됩니다.
훈련 샘플에서 대표적인 스타일 매개변수를 학습하여 제안하는 방법은 훈련 및 추론 중 스타일 전달 및 절차 일관성의 정도를 조정할 수 있습니다.
추론하는 동안 스타일 전송의 정도는 편집을 통해 조정할 수 있습니다.
변환 균형 매개변수를 사용하여 스타일 피쳐 공간에서 입력 텍스트의 스타일 피쳐를 지정합니다.
제안된 모델의 효율성은 일부 스타일 전송 데이터 세트를 사용하여 평가되었습니다.
결과는 제안한 방법이 동일한 수준의 전사 성능을 유지하면서 스타일 전사 정도의 조정을 달성함을 보여준다.

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-169, Adjustable Text Style Transfer with Dynamic Representative Style Feature, ARR Review 2201

0 Abstract

1 Introduction

2 Related Research

2.1 Supervised Text Style Transfer

2.1.1 Unsupervised Text Style Transfer

2.2 Few-shot Text Style Transfer

2.3 Adjusting the Degree of Style Transfer

2.3.1 Fast Gradient Based Manipulation

2.3.2 Vector Arithmetic Based Manipulation

2.4 Positioning of This Study

3 Proposed Method

3.1 Overview of the Proposed Method

3.2 Training Pipeline

3.2.1 Disentanglement Based Method

3.2.2 DAE Based Method

3.3 Transfer Styles During Inference

4 Experiment

4.1 Dataset

4.2 Experiment Setup

4.3 Evaluation Metrics

4.4 Style Transfer

4.5 Human Evaluation

4.6 Generated Sentences

4.7 Adjusting the Degree of Style Transfer

5 Conclusion

댓글

댓글 쓰기