NL-169, Adjustable Text Style Transfer with Dynamic Representative Style Feature, ARR Review 2201

0 Abstract

  • Text style transfer은 발화의 일부 속성만 변화하면서 발화를 생성하는 테스크이다.
  • 이 테스크는 일관된 챗봇의 구현 및 writing 지원과 같은 응용 프로그램을 위해 최근 몇 년 동안 활발히 연구되었습니다.
  • 그러나, 현재 텍스트 변화 기술은 제한된 스타일의 수와 같은 몇 가지 문제가 있고, transfer 정도를 조절하는데 어려움이 있다.
  • 이 논문에서는, 우리는 자세히 스타일 변화의 정도를 조절하는 능력에 중점을 맞춘다.
  • 이전 방법은 주로 반복 생성이거나, 또는 원본 텍스트의 속성 레이블이 필요하므로 transfer의 정도를 조정하는 비용이 증가합니다.
  • 이러한 점을 감안하여 본 연구의 목적은 추론시 스타일 변환 정도를 쉽게 조절할 수 있는 방법을 제안하는 것이다.
  • 훈련 데이터에서 대표적인 스타일 특징을 학습하고 추론하는 동안 연속 스타일 특징 공간에서 편집하여 이 문제를 해결합니다.
  • 우리의 방법은 소스 텍스트의 속성 레이블과 반복 생성 없이 스타일 전송을 달성합니다.
  • 우리는 서로 다른 데이터 세트의 여러 실험에서 제안된 방법의 효율성을 보여줍니다.
  • ARR 포맷

1 Introduction

  • 모든 발화는 그것이 발화되는 상황과 관련이 있습니다. 
  • 발화가 이루어지는 상황은 발화 주체의 시간, 장소, 시나리오, 특성이다.
  • 이러한 상황은 여러 속성으로 분류할 수 있습니다. 
    • 존칭형, 시제, 감정, 타인과의 관계, 텍스트의 장르 등이 그러한 속성의 예이다. 
    • 발화에는 이러한 속성과 관련된 특성이 있습니다.
  • 발화를 x로 표시하고 발화의 이러한 속성을 a로 표시합시다. 
  • 이러한 발화 및 속성과 관련된 세 가지 주요 자연어 작업이 있습니다.
  • 첫 번째는 p(a|x)를 모델링하여 발화로부터 속성을 예측하는 속성 예측 작업으로 오랫동안 연구되어 왔습니다.
    • 예측된 속성에는 화자가 누구인지, 화자의 성별, 문장의 장르 등이 포함됩니다(Stamatatos, 2009; Garera and Yarowsky, 2009; Rao et al., 2010).
  • 두 번째는 p(x|a)를 모델링하고 특정 속성을 가진 발화를 생성하는 스타일 조건부 언어 모델링이라는 작업입니다. 
    • 예는 특정 사람의 개인화된 트윗을 생성하는 데 사용할 수 있는 포옹 트윗 프로젝트입니다.
  • 세 번째는 TST(텍스트 스타일 전송)라고 하며, p(x|a, x')를 모델링하고 소스 발화의 대상 속성과 관련된 특성(이 백서에서는 스타일이라고 함)을 변환한 다음 대상과 관련이 없는 다른 특성을 변환합니다. 
    • 속성(이 문서에서는 내용이라고 함). 
    • 예를 들어 "Gotta go ASAP"라는 솔직한 말을 "We have to leave as soon as we can."는 형식적인 연설로 바꾸는 것이 있습니다.
  • TST는 다양한 응용이 가능하며 최근 몇 년 동안 광범위한 연구 주제였습니다. 
    • TST의 응용 프로그램 중 하나는 지능형 로봇의 음성을 보다 일관되게 만드는 것입니다.
    • TST는 다른 작업에서 생성된 음성을 후처리하는 도구로 사용할 수 있습니다. 
    • 또 다른 중요한 응용 프로그램은 지능형 쓰기 지원입니다. 
    • 글쓰기에 익숙하지 않은 사람들이 더 formally, 더 politely, 더 humorously하게 글을 쓰는 데 도움이 될 수 있습니다.
  • TST와 유사한 작업은 기계 번역 및 이미지 스타일 전송입니다. 
    • 기계 번역과 TST는 내용을 보존하면서 텍스트의 일부 속성을 변형한다는 점에서 유사한 작업이지만 변형할 속성의 변형 정도에 연속성이 있다는 점에서 다릅니다.
    • 예를 들어 기계 번역 작업에서 영어 "This is an apple"은 일본어 "これはりんごです"와 동일하며 중간 결과가 없습니다.
    • 그러나 TST에는 "We sit down and got some service."와 같은 중립적인 문장이 있습니다. 
    • "We got a very nice place to sit down and received great service."와 같은 긍정적인 문장 사이에 있습니다. 
    • "We sit down and we got some really slow and lazy service."와 같은 부정적인 문장.
    • 즉, 스타일의 연속성이 있습니다. 
    • 이러한 스타일의 연속성은 텍스트 스타일 전달의 중요한 속성이며, 이를 조정할 수 있는 능력은 보다 자세한 텍스트 지원과 보다 상황에 맞는 대화를 제공할 수 있는 대화 에이전트로 이어질 것입니다.
    • 실제로, 이렇게 해볼 서비스나 어플리케이션이 의미가 있는가?
  • 이미지 스타일 전송과 텍스트 스타일 전송은 유사한 작업이지만 각 영역의 표현이 다릅니다. 
    • 텍스트는 이산 표현이고 이미지는 연속 표현입니다.
    • 또한 텍스트의 스타일과 내용의 연결은 이미지보다 더 강력합니다.
    • 따라서 이미지 스타일 전송에 비해 변환할 스타일의 수가 제한되어 있으며, 현재 스타일을 세부적으로 조정하기가 어렵습니다.
  • 스타일 전달 정도의 연속성에 초점을 맞추고 대상 속성의 변형 정도를 제어할 수 있는 텍스트 스타일 전달 모델을 제안한다.
    • 이전 방법은 주로 반복 생성 또는 원본 텍스트의 속성 레이블이 필요하므로 변환 정도를 조정하는 비용이 증가합니다. (이러한 레이블이 필요하다는거?)
    • 이러한 문제를 해결하기 위해 우리의 방법은 style features을 continuous space에서 벡터로 취급하고 모델 가중치와 동시에 훈련 샘플에서 학습합니다.
    • 추론하는 동안 우리 모델은 single scalar로 스타일 기능을 편집하여 스타일 전달 정도를 조정합니다.
  • The contributions of this study are as follows.
    • 우리는 디코더에 대한 대표적인 style features을 훈련 데이터에서 연속 공간의 벡터로 학습하고 훈련 및 추론 중에 동일한 작업으로 변환을 수행하는 파이프라인을 개발했습니다.
    • 우리의 방법은 원본 텍스트의 속성 정보 없이 한 번의 작업으로 스타일 전달 정도를 제어할 수 있습니다.
    • 원본 텍스트의 속성을 알아야 해서 더 좋은 속성을 조절할 수 있다면 큰 단점은 아닌 거 같은데..?
  • We conduct experiments on text style transfer and show the transfer performance and controllability of our method.

2 Related Research 

  • 텍스트 스타일 전송은 최근 몇 년 동안 널리 연구되고 있는 작업으로, 텍스트의 특정 속성은 변형되고 다른 특징은 보존됩니다.
  • 텍스트 스타일 전송 작업에는 세 가지 주요 문제 설정이 있습니다.
  • 너무 관련 연구가 긴데...?

2.1 Supervised Text Style Transfer

  • 감독된 텍스트 스타일 전송은 병렬 텍스트라고 하는 서로 다른 스타일로 표현된 동일한 내용의 문장 쌍이 있는 문제 세트입니다. 
  • Auto Encoder, VAE(Kingma and Welling, 2014), GAN(Goodfellow et al., 2014)과 같은 많은 방법이 Encoder-Decoder 아키텍처를 기반으로 합니다.
  • 감독된 집합이 높은 전송 성능을 달성할 수 있는 반면 감독된 스타일 전송 방법은 생성하기 어려운 서로 다른 스타일의 발화 쌍이 필요합니다.
  • 이 문제를 해결하기 위해 데이터 증강을 사용하여 데이터의 양을 확장하고 소량의 병렬 데이터로부터 학습하는 방법이 있습니다(Rao and Tetreault, 2018).

2.1.1 Unsupervised Text Style Transfer 

  • 문단이 잘못된 거 같은데?
  • Unsupervised text style transfer는 병렬 텍스트가 없는 텍스트 레이블 쌍(x, a)에서 스타일 기능을 학습하여 텍스트 스타일을 변환하는 방법입니다.
  • 감독되지 않은 텍스트 스타일 전송의 주류 방법 중 하나는 대상 텍스트 및 기타 기능의 속성과 텍스트 정보의 분리를 사용하는 것입니다.
  • 1) disentanglement 기반 방법의 대부분은 adversarial training(Goodfellow et al., 2014)을 사용하여 disentanglement 표현을 학습하고 생성 시점의 스타일 특징만 변환 및 편집하여 스타일 전달을 실현합니다.
  • 2) 일부 접근 방식은 콘텐츠 기능에서 스타일 기능을 분리하지 않고 정적 스타일 벡터를 생성기에 입력하여 스타일 전달을 달성합니다(Logeswaran et al., 2018; Fu et al., 2018; Lample et al., 2019).
    • 이러한 방법에서 각 속성의 대표적인 스타일 기능은 일대일 대응을 갖는 이산 벡터로 생성기에 입력되는 경우가 많습니다.
  • 3) 명시적으로 편집할 단어를 다루는 프로토타입 기반 편집 방법도 있습니다. DAR은 대표적인 작품이다.
    • 이 방법에서는 원본 텍스트의 속성 마커인 단어를 삭제하고 대상 속성의 말뭉치에서 얻은 유사한 단어로 보완하여 텍스트 스타일 전달을 달성합니다.
    • 이 방법은 발화의 잠재된 표현 h를 명시적으로 다루지 않고 단어 수준에서 편집한다는 점에서 위의 두 방법과 크게 다릅니다.
    • 편집하고자 하는 단어의 미세조정은 가능하나 전체 문장의 구조를 변형하기 어려운 단점이 있다

2.2 Few-shot Text Style Transfer

  • Few-shot 텍스트 스타일 전송은 스타일 전송을 수행하기 위해 학습 중에 텍스트 x만 사용하고 추론 중에 레이블이 지정된 적은 수의 발화를 사용하는 작업입니다.
  • Riley(Riley et al., 2021)에서는 훈련 데이터 세트의 전후 문장이 유사한 스타일을 가지며 생성에 사용되는 속성을 사용하여 훈련 중에 의사 스타일 특징을 추출합니다.
  • 추론하는 동안 대상 속성으로 레이블이 지정된 소수의 텍스트에서 대상 속성의 대표적인 스타일 특징을 계산하고 생성에 사용합니다.

2.3 Adjusting the Degree of Style Transfer

  • 문장의 문체 번역에 관한 일부 연구에서는 문체 번역의 변형 정도를 조정하는 문제를 다루었다.
  • Lample(Lample et al., 2019)은 훈련 중 Auto Encoder loss 및 Back Translation loss weights의 하이퍼파라미터를 조정하여 스타일 전송 정도와 콘텐츠 보존 정도 사이의 균형을 조정합니다.
    • 초매개변수를 조정하는 방법은 트레이드오프의 정도를 변경하기 위해 재교육이 필요하므로 계산 비용이 증가합니다.
  • TST의 일부 방법을 사용하면 추론하는 동안 전달 정도를 조정할 수 있습니다. 
  • 다음에서는 가장 인기 있는 두 가지 방법을 소개합니다.

2.3.1 Fast Gradient Based Manipulation

  • Fast Gradient-Based Manipulation은 사전 훈련된 속성 판별자의 기울기를 사용하여 잠재 변수를 업데이트하는 방법입니다.
  • 단일 작업에서 잠재 변수는 고정된 단계 크기만큼 판별 기울기 방향으로 이동합니다.
  • 이 작업은 목표 잠재 변수를 얻을 때까지 반복됩니다. 
  • 각 편집에 의해 얻어진 잠재변수 hˆ는 2.3.1을 따라 획득된다.
    • 2.3.1은 이 섹션이라 적절한 표현이 아니다.
    • figure 1을 말하는 것인가?
  • Fast Gradient-Based Manipulation은 판별식의 기울기를 이용하여 잠재변수를 조작하기 때문에 원본 텍스트의 속성 정보가 필요하지 않지만 목표 결과를 얻기 위해서는 반복적인 연산이 필요하다.
  • 이것은 related works가 아닌 다른 곳에 가야할거 같은데? --> 이 논문에서 쓴 방법은 아닌듯

2.3.2 Vector Arithmetic Based Manipulation

  • 벡터 산술 기반 방법은 특정 속성을 가진 발화의 잠재 변수의 평균 벡터를 사용하여 텍스트 스타일 전달 및 텍스트 보간 작업에서 잠재 변수에 대해 선형 연산을 수행하는 방법입니다. 
  • Zhao(Zhao et al., 2018)와 Shen(Shen et al., 2020)은 이 접근 방식을 사용합니다.
  • 특히, 소스 텍스트의 잠재 표현 h는 표현식 2.3.2에서와 같이 스타일 편집 벡터 v에 의해 수정됩니다.
    • 2.3.2는 이 섹션을 의미하는데 figure 2을 말하는 것인가?
    • 발화 전체의 평균이면 context 정보도 포함할텐데 노이즈하지 않은가?
    • attribute 부분만의 평균은 못 구하는 것인가?
    • 테스트때는 처리가 가능한 방법인가?
  • 예를 들어, 소스 텍스트의 속성이 positive라고 가정합니다.
  • 속성이 양수에서 음수로 이전되면 h는 h - v만큼 업데이트되고 속성이 다음에서 이전되면
  • 음수에서 양수로, h는 h + v로 업데이트됩니다.
  • Shen(Shen et al., 2020)에서 특정 속성에 대한 스타일 벡터 h는 소스 속성이 있는 고정된 수의 샘플과 검증 데이터세트.
  • 벡터 산술 기반 조작은 Few-shot TST 설정에서도 사용됩니다. 
  • 그러나 이러한 방법은 유추할 때만 스타일 기능을 사용하며 이 작업이 스타일 정보를 적절하게 변경한다는 보장은 없습니다. 
  • 또한 벡터 산술 기반 조작에는 원본 텍스트의 속성 레이블이 필요합니다.

2.4 Positioning of This Study

  • 우리의 방법에서 우리는 기존 방법의 일부와 같이 추론 동안뿐만 아니라 훈련 중에 디코더에 대표적인 스타일 기능을 명시적으로 처리합니다.
  • 그러나 우리의 방법은 입력 스타일 특징이 고정된 이산 벡터가 아니라 훈련 데이터에서 학습된 매개변수라는 점에서 기존 방법과 다릅니다.
  • 이 방법은 입력 문장의 속성 레이블과 반복 조작이 필요 없다는 점에서 추론하는 동안 특징을 조작하는 기존 방법보다 우수합니다. 
  • 또한, 우리의 방법은 훈련 및 추론 동안 연산 일관성을 갖습니다.

3 Proposed Method 

3.1 Overview of the Proposed Method

  • 이 섹션에서는 우리가 작업하고 있는 작업과 목표를 공식화합니다.
  • 우리는 x를 소스 텍스트로 취하고 대상 속성의 레이블 a로 (x, a)와 같은 입력을 받습니다.
  • 예를 들면 a는 시제와 감정이 있습니다. 
  • 문장 x는 잠재변수 h로부터 생성되며, h는 대상 속성과 관련된 특징인 s와 대상 속성과 무관한 특징인 c로 구성된다.
    • 즉, h = [s, c]입니다.
    • s: target atrribute의 related feature
    • c: target attribute의 unrelated feature
    • 이걸 어떻게 학습하지? --> 식5
  • 목표는 c를 유지하면서 속성 a'를 조건으로 하는 발화 x' ∼ p(x'|c, a')를 출력하는 것입니다.
  • 대부분의 기존 작업에서 이 스타일 특징 s는 속성 레이블에 일대일 대응하는 이산 벡터 표현으로 표현됩니다.
    • 이러한 벡터들 사이의 거리 관계는 이러한 방식으로 스타일을 표현할 때 의미가 없기 때문에 이러한 벡터를 편집하여 스타일 전달 정도를 제어하기가 어렵습니다.
  • 관련 연구 섹션에서 소개된 Vector Arithmetic-Based 및 Fast Gradient Based 방법은 학습 중 속성과 관련된 스타일 기능을 명시적으로 다루지 않고, 판별자 및 속성 레이블이 지정된 데이터를 사용하여 추론하는 동안 스타일을 변환합니다.
  • 이러한 방법은 매우 다재다능하지만 추론하는 동안은 훈련하는 것과 다른 작업이 필요하며 스타일 기능을 조작하여 스타일 전송 및 콘텐츠 유지 관리를 수행할 수 있다고 보장하지 않습니다.
  • 이러한 문제를 해결하기 위해 대표적인 스타일 특징을 명시적으로 처리하여 훈련 시부터 디코더에 입력하고자 합니다.
    • 스타일 특징이 이산 정적 표현인 이전 방법과 달리 우리 방법은 모델 가중치와 동시에 스타일 특징을 학습합니다.
  • 대표적인 스타일 특징을 동적 매개변수로 처리하여 연속 공간에서 스타일 특징의 조작을 디코더에 의미 있게 만드는 것을 목표로 합니다.
  • 우리의 방법에서 각 속성에 대한 대표적인 스타일 특징은 수학식 1과 같은 속성을 가진 항목의 평균 스타일 벡터로 계산되는 연속 매개변수입니다.

    • 여기서 sˆa는 스타일 a의 대표적인 스타일 특징 벡터이고, Xa는 속성 a를 갖는 문장의 집합이다. 
  • 학습 데이터로부터 학습된 각 속성의 대표 스타일 벡터는 학습 중에 디코더에 입력되고, 디코더는 이러한 스타일 벡터를 생성하는 데 사용하도록 학습됩니다.
  • 또한 같은 속성의 문체 특징을 서로 가깝게 하여 문장의 문체 특징이 더 구별되게 하기 위해 추가적인 목적을 사용하였다. 
    • 그런 다음 추론하는 동안 대상 속성의 스타일 특성을 디코더에 입력하여 스타일 전달을 수행할 수 있습니다.
    • 스타일 전달 정도를 조절하기 위해 대상 속성의 대표 스타일 특징과 입력 문장의 스타일 특징 벡터 사이의 벡터를 입력 스타일 특징으로 사용한다. 
  • 우리의 방법은 벡터 산술 기반 방법과 같은 소스 문장의 속성 정보와 빠른 기울기 기반 방법과 같은 반복 생성이 필요하지 않습니다.
  • Lample에서와 동일한 인코더-디코더 LSTM 아키텍처를 사용했습니다. 
  • 속성 판별자는 MLP로 구성됩니다.

3.2 Training Pipeline

  • 위에서 설명한 스타일의 대표 벡터를 사용하여 두 종류의 학습 파이프라인을 구성했습니다. 하나는 disentanglement 기반 방식이고 다른 하나는 DAE(Denoising Auto Encoder) 기반 방식이다. 자세한 방법은 아래에 설명되어 있습니다.

3.2.1 Disentanglement Based Method

  • 그림 3은 disentanglement기반 방법의 전체 파이프라인 다이어그램을 보여줍니다. 
    • 오타
    • s가 reltaed feature인데, 이것을 식1처럼 해서 넣는다는 것 같은데..?
  • 인코더에는 style feature s를 출력하는 인코더 es문장 x를 입력으로 사용하여 context features c를 출력하는 인코더 ec가 있습니다.
  • 학습 시 target 속성 a_target이 샘플링됩니다. 
  • s는 대상 스타일 sˆ_atarget의 대표 스타일 특성으로 교환되고 sˆ_atarget과 c는 디코더에 입력됩니다.
  • 디코더는 변환된 텍스트 x_transfer를 출력합니다.
  • 그런 다음 xt_ransfer를 인코더에 다시 입력하여 s_transfer 및 c_transfer를 구합니다. 
  • 원래 입력 문장 s^_asource 의 스타일의 대표 벡터와 s_transfer를 교환하고 s^_asource 및 c_transfer를 디코더에 입력하여 재구성된 x_reconstruct를 얻습니다.
  • 목적 함수는 AE Loss, BT(Back Translation) Loss, Classification Loss, Center Loss로 구성됩니다.
  • AE 손실은 자동 인코더의 목적 함수로 수학식 2와 같이 계산됩니다.
    • 이 목적 함수는 내용 c와 스타일 s가 모두 입력 문장의 내용일 때 입력 문장을 재구성하는 방법을 학습합니다.
  • BT Loss는 식3으로 계산된 Back Translation Loss로, 스타일 번역과 기계 번역에 사용되는 Online Back Translation 방법의 목적 함수입니다.
    • 일반적인 BT와 다른게, 여기서 s^_a가 식 1에서 보는 것처럼 target 문장풀에서 attribute relate features을 뽑아서 그것의 평균으로 대체하는 식이다.
  • 우리의 방법은 적대적 훈련을 사용하지 않고 disentanglement을 달성합니다.
    • 어떻게 그러지? --> 식5
    • Classification 손실은 s에 속성 레이블과 관련된 기능이 있는지 확인하기 위해 스타일 기능 s에서 입력 문장의 속성을 예측하는 목적 함수입니다.
  • Content Consistency Loss는 식 5에서와 같이 입력 문장의 콘텐츠 특성 c가 변환된 문장 x_transfer의 c_transfer와 일치하도록 하는 목적입니다.
    • 목표는 콘텐츠 기능이 속성과 독립적이도록 인코더를 훈련하는 것입니다.
    • 이렇게하면 ec에 style 정보가 빼서 인코딩된다는 것이군?
  • 식 6에 나타낸 Center Loss는 스타일 특징 벡터가 스타일 특징 공간에서 서로 가까운 동일한 속성과 연관되도록 대표 스타일 벡터와 스타일 특징 벡터 사이의 거리에 주어진 목적이다.
    • 이 손실의 목표는 같은 속성의 스타일 특징을 서로 가깝게 임베딩하여 구별하기 쉬운 스타일 특징을 얻는 것입니다.
    • 이렇게하면, es가 각 샘플이 식 1에서 구한 s^_a와 유사하게끔 한다는 것
    • 즉, es는 같은 style을 가지는 문장은 es을 통과하면 같은 vector로 되게 한다는 것
    • 하지만, 이렇게하면 다른 속성을 가진 x1와 x2사이의 es(x1) <-> es(x2)의 다름성을 보장할 수는 없는데?
  • 총 목적 함수는 다음과 같습니다. 각 λ는 각 손실의 균형을 맞추는 하이퍼파라미터입니다.

3.2.2 DAE Based Method

  • DAE(Vincent et al., 2008)는 입력에 노이즈를 추가하여 Auto Encoder를 훈련하고 강력한 임베딩을 학습하는 것을 목표로 합니다. 
  • DAE 문장 생성 모델에서 인코더는 잡음이 있는 문장 xc를 입력으로 사용하고 잠재적 특징 h를 출력합니다. 
    • xc: noised sentence
    • noise는 어떻게 추가하는가?
    • 디코더는 h를 입력으로 사용하여 입력 문장 x를 재구성하도록 훈련되었습니다.
  • Lample (Lample et al., 2019)은 DAE 프레임워크를 사용하여 스타일 전송을 구현했습니다. 
    • 입력에 노이즈를 추가함으로써 잠재적 특징 h가 충분한 특징을 가지는 것을 방지하고, 디코더에 추가 특징을 입력함으로써 디코더는 추가 특징을 세대 동안 사용하도록 훈련된다.
  • TST에서는 스타일 특성을 추가 특성으로 사용하며 추론하는 동안 디코더에 대상 스타일 특성을 추가하여 스타일 전달을 달성합니다.
  • Lample과 같은 방법으로 단어 삭제 및 교체를 노이즈로 수행했습니다(Lample et al., 2019). 
    • 우리 모델은 인코더, 디코더 및 스타일 인코더 MLP로 구성됩니다.
  • 입력 텍스트 x의 인코더 출력 entangled latent vector h와 스타일 인코더 MLP는 식 1에서와 같이 representative style features을 업데이트하는 데 사용되는 잠재 벡터 및 출력 스타일 특징 s를 취합니다.
  • 디코더는 잠재 특성 h와 대상 스타일 특성 sˆatarget으로부터 입력 문장 x를 재구성합니다. 
  • DAE의 목적 함수는 수학식 8에 나와 있습니다.
    • DAE의 e는 어떤 e인가?
    • 여기서 식 2처럼, h에서 x를 재구성하는데, h가 원래는 [s,c]로 [e_s(x), e_c(x]였다.
    • 단지 [e_s(x_c), e_c(x_c)]로 바뀐 것인가?
  • In our method, BT Loss and Center Loss are added to the objective function in addition to DAELoss. The final objective function becomes equation 9. 
    • 여기서 BT, center loss가 사용되는데, 여기서 ec, es가 사용된다.
    • DAE의 e가 새로운 e라면 ec와 es는 왜 학습이 되는가? 스타일 트랜스퍼에 효과가 있는것인가?

3.3 Transfer Styles During Inference 

  • 추론하는 동안 디코더에 입력된 스타일 특징은 다음 식 10과 같이 단일 스타일 전달 정도를 조정하는 스칼라 θ를 사용하여 조작됩니다.
    • 스타일 변화할 때, target 속성을 가진 샘플들의 평균인 s^_atarget을 그대로 이용하지는 않고, theta값으로 본 문장의 s을 이용해서 interpolation 한다는 것이다.
    • 이러한 방법은, 기존의 style을 interpolation을 하는 것과 크게 다른 점이 없어 보이는데? SST에서도 이렇게 했기 때문
  • 우리의 방법은 하나의 스타일 전달 연산만 필요하며 기존의 Fast Gradient Based 및 Vector Arithmetic-Based 방법과 같이 벡터 공간에서 반복적인 연산이 필요하지 않습니다.
  • 원본 텍스트의 조작된 스타일 특성 s'와 내용 특성 c를 사용하여 디코더는 문장을 생성합니다.

4 Experiment

  • 이 장에서는 여러 데이터 세트에서 텍스트 스타일 전송을 실험하고 방법을 평가합니다.
  • DAE 기반 방법인 Lample(Lample et al., 2019)과 Prototype 편집 기반 방법인 DAR에서 비교 방법으로 DAE 기반 방법을 사용합니다.
  • 속성을 완전히 변형시키는 실험을 한 후, 스타일 전이 정도를 조절하는 실험을 수행하여 우리 방법이 텍스트의 스타일 전이 정도를 조절할 수 있음을 보여주었다.

4.1 Dataset

  • Yelp 레스토랑 리뷰 데이터 세트(Shen et al., 2017)와 Amazon 리뷰 데이터 세트(He and McAuley, 2016)를 사용했습니다.
  • Yelp 레스토랑 리뷰 데이터 세트는 레스토랑 및 비즈니스 리뷰로 구성됩니다. 
  • 데이터 세트에는 270만 개의 훈련 샘플, 10,000개의 검증 샘플 및 10,000개의 테스트 샘플이 포함되어 있습니다.
  • Amazon 리뷰 데이터 세트에는 Amazon 제품 리뷰, 7,500만 개의 교육 샘플, 10,000개의 검증 샘플 및 10,000개의 테스트 샘플이 포함되어 있습니다.
  • Yelp 및 Amazon 데이터 세트 모두 Lample의 연구에서와 같이 평가 점수가 4 이상인 리뷰는 긍정적인 샘플로 간주되고 평가 점수가 2 이하인 리뷰는 부정적인 샘플로 간주되었습니다.
    • 점수 2~4 사이는 데이터를 버리는가?
  • 또한 Shen(Shen et al., 2017)은 15단어 이하의 샘플만을 다루었지만 우리는 Lample(Lample et al., 2019)에서와 같이 최대 100단어 이하의 샘플을 사용했습니다.

4.2 Experiment Setup

  • Adam Optimizer(Kingma and Ba, 2017)를 사용하여 각 데이터 세트를 200회 반복 학습했습니다.
  • 실험 설정에 대한 세부 정보는 부록 A에 나와 있습니다. 
  • 우리는 약 일주일 동안 단일 NVIDIA A100에서 모델을 교육합니다.
  • 우리는 모든 (방법, 데이터 세트) 쌍에 대해 실험을 수행하고 평가를 위한 검증 샘플에서 최상의 결과를 가진 반복 모델을 선택합니다.

4.3 Evaluation Metrics

  • 텍스트 스타일 전달은 주로 스타일 전달 정도, 콘텐츠 유지 정도, 유창성 정도의 세 가지 축을 사용하여 평가됩니다.
  • 스타일 전송은 원본 텍스트의 속성이 올바르게 변환되었는지 여부를 측정하는 것입니다.
  • 속성 변환 정도는 훈련된 속성 판별자의 판별 정확도(S-ACC)를 사용하여 측정됩니다.
    • 어떤 판별자로 모델을 학습했는가?
  • 콘텐츠 보존은 원본 텍스트의 콘텐츠가 얼마나 잘 보존되었는지를 측정한 것입니다.
    • n-gram 통계를 사용하는 BLEU score와 BERT 언어 모델을 사용하는 BERTScore를 사용하여 측정됩니다.
  • 유창성은 생성된 문장의 문법적 정확성과 언어적 자연스러움의 척도입니다. 
    • 사전 훈련된 가중치가 게시된 GPT2 언어 모델을 사용하여 Perplexity 점수를 계산합니다.

4.4 Style Transfer

  • 제안된 방법의 스타일 전달 성능을 보여주기 위해 언급된 두 데이터 세트에 대해 TST 실험을 수행했습니다. 
    • 사용된 데이터 세트가 고정되어 있지 않기 때문에 비교 방법은 우리의 재구현을 기반으로 합니다.
  • 자동 평가 결과는 하기 표 1과 같다.
  • 우리의 방법은 기준 방법과 비교하여 스타일 이전 정도와 콘텐츠 보존 정도 사이에서 더 낫거나 비슷한 절충안을 보여줍니다.
  • 구체적으로, 풀기 기반 방법은 스타일 전달 정도가 조금 더 높고 콘텐츠 보존성은 약간 낮고 복잡도는 더 높은 것으로 나타났다.
  • DAE 기반 방법은 더 나은 혼란과 스타일 전달 정도를 보여줍니다. 
  • 우리의 방법은 스타일 전달의 정확성을 향상시키는 것을 목표로 하지 않기 때문에 우리 방법은 수용 가능한 변환 성능을 보여주는 데 성공했다고 말할 수 있습니다.

4.5 Human Evaluation

  • 자동 평가 외에도 생성된 문장을 사람의 평가로 평가했습니다.
  • 평가는 제안된 DAE 기반 방법과 두 가지 비교 방법(DAE(Lample et al., 2019), DAR(Li et al., 2018))을 사용하여 Yelp 리뷰 데이터 세트의 테스트 데이터 샘플에 대해 수행되었습니다.
  • 생성된 문장은 5점 척도로 수동으로 평가됩니다.
  • 스타일 전달 정도, 내용 유지 정도, 유창성, 종합 평가의 4개 축 각각은 1(매우 나쁨)에서 5(매우 좋음)까지 5점 척도로 평가되었습니다.
  • 긍정에서 부정으로 변환된 120개의 문장과 부정에서 긍정으로 변환된 또 다른 120개의 문장을 준비했습니다.
  • 평가에는 Amazon Mechanical Turk(https://requester.mturk.com/)를 사용했습니다.
    • 평가자의 질을 확보하기 위해 미국에 거주하며 과제 수락률이 90% 이상인 평가자만 선정하였다.
    • 평가 결과를 표 2에 나타내었다. 
    • 내용보존 및 종합평가에 대한 평가결과는 비교방법에 비해 약간 우수하였고, 다른 평가축에 대한 결과는 유사하였다.
    • 거의 차이가 없음.
  • 자동 평가와 유사하게 우리 방법은 인적 평가에서 비교 방법과 동일한 수준의 스타일 전달 성능을 보인다고 할 수 있습니다.

4.6 Generated Sentences

  • 정성적 평가를 위해 생성된 문장의 샘플은 아래 표 3과 같다.
  • 대조적으로, 우리의 방법으로 변형된 문장은 속성 독립적인 문장 구조를 유지하면서 단어와 형용사의 변화를 보여줍니다.
  • 옐프 리뷰에서 긍정문을 부정문으로 바꾸면 형용사는 부정문으로 바뀌고 속성독립접속사와 명사는 그대로 유지된다.
  • 표 4는 우리 방법으로 실패한 전송 결과를 보여줍니다. 
    • 첫 번째 예에서는 "나쁜 서비스"를 "훌륭한 서비스"로 성공적으로 변환했지만 "콜드 슬라이더와 감자 튀김"은 변환하지 않았습니다.
  • 이 예와 같이 단어 자체에서 속성을 예측할 수 있는 단어는 변환하기 쉽지만 상식과 문맥이 필요한 속성을 가진 단어는 변환하기 어려울 수 있습니다.
  • 어떤 경우에는 두 번째 예와 같이 시스템이 선행 접속사와 후행 접속사의 관계를 잘 학습하지 못하고 문장을 정접속사로 바꾸어도 접속사가 역설적으로 남습니다.
    • positive --> negatvie 인거 같은데? 오타?
  • 따라서 논리적 일관성을 유지하는 방식으로 문장을 변형하는 것은 어려운 것 같습니다.
  • 상식을 필요로 하고 논리적 일관성을 유지하는 그러한 전송은 향후 작업의 주제가 될 것입니다.

4.7 Adjusting the Degree of Style Transfer

  • 균형 매개변수에 의해 문장의 변형 정도가 조절될 수 있음을 보여주기 위해 여러 균형 매개변수를 이용한 문장의 문체 변환 결과는 표 5와 같다.
    • 근데 이거를 해서 어따가 활용하는거지?
    • 평가보면 이 방법때문에 스타일 변화가 더 잘일어나는 것도 아닌거 같은데
  • 균형 매개변수를 0에서 1로 증가시켜 문장을 생성했습니다.
  • 비교로 우리는 변환하는 동안 유사한 방식으로 편집된 속성 벡터가 주어진 DAE(Lample et al., 2019) 방법을 사용하여 훈련된 모델의 결과를 보여줍니다.
  • 그림 4는 저울 매개변수가 변경됨에 따른 S-ACC의 값을 보여줍니다.
  • 그림 4와 같이 우리의 방법에서는 움직임의 정도를 조절하는 균형 매개변수가 증가할수록 문장 변형의 정도가 점차 증가하고, S-ACC는 지속적으로 증가한다.
  • 이에 반해 비교방식에서는 스타일이 지속적으로 변화하지 않고 변형도 0.5 부근에서 급격하게 변화한다.
  • Balance 파라미터를 변경한 정성적 결과는 Table 5와 같다. 
  • 변형 정도를 조절하는 파라미터가 증가할수록 변형어의 비율이 증가함을 알 수 있다.

5 Conclusion

  • 본 연구에서는 스타일 전달 정도를 조절할 수 있는 텍스트 스타일 전달 모델을 개발하였다.
  • 우리의 방법은 각 속성에 대한 대표 스타일 기능을 명시적으로 다루지만 이전 연구와 달리 대표 벡터도 학습됩니다.
  • 훈련 샘플에서 대표적인 스타일 매개변수를 학습하여 제안하는 방법은 훈련 및 추론 중 스타일 전달 및 절차 일관성의 정도를 조정할 수 있습니다.
  • 추론하는 동안 스타일 전송의 정도는 편집을 통해 조정할 수 있습니다.
  • 변환 균형 매개변수를 사용하여 스타일 피쳐 공간에서 입력 텍스트의 스타일 피쳐를 지정합니다.
  • 제안된 모델의 효율성은 일부 스타일 전송 데이터 세트를 사용하여 평가되었습니다. 
  • 결과는 제안한 방법이 동일한 수준의 전사 성능을 유지하면서 스타일 전사 정도의 조정을 달성함을 보여준다.

댓글