Short-003, A Dual Reinforcement Learning Framework for Unsupervised Text Style Transfer (2019-IJCAI)
0. Abstract
- Text style transfer 연구
- 기존의 연구방법들은 two-step으로 구성되어 있는데 첫 번째 방법은
- 방법 1의 첫 번째 step: the content from the original style → fusing the content with the desired style
- 그러나 첫 번째 step에서 content와 style을 분리하는 것은 상당히 어렵다.
- 왜냐하면 문장을 구성하는데에 있어서 content와 style이 상호작용을 하기 때문이다.
- 따라서 이 논문에서는 dual RL을 이용하여 학습하겠다.
- 이 방법은 without any separation of content and style 이다.
- 즉 이 논문에서는 task를 다음과 같이 두 가지 방향으로 본다.
- Specifically, we consider the learning of the source-to-target and target-to-source mappings as a dual task
- 이에 대한 style accuracy와 content preservation으로 각각 두 가지 reward를 부과한다.
1. Introduction
- Parallel 데이터는 모으기 힘들다.
- 기존의 방법은 두 개가 있는데..
- first separating the content from the original style and then fusing the content with the desired style (content, style 분리하고 합치는 방법)
- directly removes the specific style attribute words in the input, and then feeds the neutralized sequence which only contains content words to a style-dependent generation model. (attribute words 없애고 style 입혀서 생성하는 방법)
- 그러나 이 두가지 방법은 단점이 있다고 주장한다.
- 첫 번째 방법
- The former line of research tends to only change the style but fail in keeping the content, since it is hard to get a style independent content vector without parallel data
- Parallel data없이 하기 때문에 content와 independent한 style을 유지하기 어렵다.
- 두 번째 방법 (이것도 two-step임)
- 첫 번째 방법의 단점을 해결하기 위해, content preservation을 강화하기 위해, continuous vector space 대신에 discrete space인 token 단위에서 neutralizing을 하게 된다.
- 따라서 “The only thing I was offered was a free dessert!!!” 와 같은 암묵적으로 표현된 감정의 문장은 처리하는데 한계가 있다.
- 이 논문에서는 이러한 문제를 해결하기 위해 two-step 모델의 단점을 해결하기 위해 one-step mapping을 제시한다.
- one-step mapping model between the source corpora and the target corpora of different styles
- Parallel data가 부족하기 때문에 learning of the source-to-target and target-to-source mapping models as a dual task 관점으로 접근 (당연한거 아닌가?)
- mapping model f transfers an informal sentence x into a formal sentence y', while the backward one-step mapping model g transfers a formal sentence y into an informal sentence x'.
- 즉 이 그림을 보면, style을 바꾸는 모델이 각각 존재하는 것이다.
- 긍정에서 부정으로 바꾸는 모델1, 부정에서 긍정으로 바꾸는 모델2 이런 식임
- 이게 어떻게 보면 공정한 비교가 아닌 듯.
- 왜냐하면 보통은 모델을 한 개를 써서 학습하기 때문에
- 이 두 모델로 closed loop을 이루면서 RL 방식으로 학습하는데
- annealing pseudo teacher-forcing algorithm을 구성하여 RL 학습하다가
- back-translation으로 바꾸어서 pure RL으로 학습 식으로 점점 바꾸는 과정을 거쳤다고 한다.
- Contribution
- We propose a dual reinforcement learning framework DualRL for unsupervised text style transfer, without separating content and style.
- We resolve two daunting(어려운) problems (pre-training and generation quality) when model is trained via RL without any parallel data.
- Experiments on two benchmark datasets show our model outperforms the state-of-the-art systems by a large margin in both automatic and human evaluation.
- The proposed architecture is generic and simple, which can be adapted to other sequence-to-sequence generation tasks which lack parallel data.
2. Extra
3. Conclusion and Future Work
- 이 논문은 one-step mapping 의 방식으로 model for the source-to-target style transfer and a dual mapping model for the target-to-source style transfer을 하였다.
- Parallel 데이터의 부족함으로, dualRL 학습 방식을 제안하였고 자동으로 생성된 supervision signals으로 two개의 mapping 모델을 학습하였다.
- In this way, we do not need to do any explicit separation of content and style, which is hard to achieve in practice even with parallel data.
- sentiment transfer and formality transfer datasets에서 우리의 모델이 좋음을 보여준다.
- Although pre-training and annealing pseudo teacher forcing are effective, they make the training process complicated.
- Therefore, how to get rid of them and train the generative model purely based on RL from scratch is an interesting direction we would like to pursue.
- Moreover, since the proposed architecture DualRL is generic and simple, future work may extend to other unsupervised sequence-to-sequence generation tasks which lack of parallel data.
Reference
댓글
댓글 쓰기