NL-283, 2506 ARR Review3

◼ Comment

SYNDEC: A Synthesize-then-Decode Approach for Arbitrary Textual Style Transfer via Large Language Models
Text style transfer을 프롬프트 엔지니어링으로 해결하려고 한 논문이다

이전에도 이런 시도가 있었긴했는데, few-shot을 직접 골라야하는 코스트가 꽤 컸나보다? 그에 따라 성능도 매번 달라지고..?

그래서 few-shot을 데이터세트에서 자연스럽게 골라주는 기법을 제안하고, 이를 리랭킹해서 더욱 효과적으로 프롬프팅 하는 것을 보여준다

또한 디코딩할때, 단순히 기존 naive decoding (greedy?)을 사용하면 지시사항을 잘 안따르는 경우가 있다고 한다

그래서 원하는 스타일대로 생성하지 않는 문제가 있다고함
따라서 이를 강제하기 위해 디코딩 전략을 제시한다
환각 디코딩하고 개념은 비슷하게 접근한다
약간 의문인건, prompt 없이 디코딩 하는 것은 어떻게 지시사항이 전달되는거지? 라는 의문이다
사용된 프롬프트는 부록에 첨가가 필요해보인다
negative sample은 논리적으로는 맞는거 같은데.. 선택하는 방법이 직관적으로 이해되지는 않는다
추가적으로 디코딩에 사용되는 파라미터를 찾는 과정이 있는데 이또한 직관적이지 않다.

실험자체는 제대로 실행된거 같으며, 성능이 좋음을 보여준다

비교모델 논문 살짝보니 다른 LLM을 썼던데, 여기서는 LLAMA3-70B로 모두 통일하여 진행한 것인가?

초록 (Abstract)

대규모 언어 모델(LLM)은 텍스트 스타일 전환(TST) 분야에서 지배적인 기술로 자리잡고 있다. 그러나 임의 스타일 전환(arbitrary style transfer) 작업에 있어 LLM은 두 가지 주요 도전에 직면하고 있다. 첫 번째는 수작업으로 구성한 프롬프트(prompt)에 과도하게 의존한다는 점이며, 두 번째는 모델 자체에 내재된 경직된 스타일 편향(stylistic biases)이다.

본 논문에서는 이러한 문제를 해결하기 위해 SYNDEC(Synthesize-then-Decode)라는 새로운 접근법을 제안한다. 이는 고품질의 프롬프트를 자동으로 합성하고, 이를 디코딩 과정에서 적극적으로 활용하도록 한다. 구체적으로, 제안된 접근법은 대표적인 few-shot 샘플을 선택하고, 이를 4차원(어휘, 구문, 어조, 의미)의 스타일 분석을 거쳐 후보 프롬프트를 재순위화(reranking)하는 방식으로 프롬프트를 합성한다. 또한 LLM의 디코딩 단계에서 합성된 프롬프트 유무에 따른 출력 확률의 차이를 최대화하고, 프롬프트와 부정적(negative) 샘플 간의 대비를 통해 스타일 전환 효과를 더욱 증폭시킨다.

광범위한 실험을 통해 SYNDEC는 기존의 최신 LLM 기반 방법들을 여섯 가지 벤치마크 중 다섯 가지에서 뛰어넘는 성능을 보였다. 특히 현대 영어를 엘리자베스 시대 영어로 전환하는 작업에서 정확도를 최대 9% 향상시켰다. 더불어 상세한 제거(ablation) 연구를 통해 SYNDEC의 효과를 추가적으로 입증하였다.

1. 서론 (Introduction)

다음은 논문의 Introduction 섹션을 빠짐없이 한글로 번역한 내용입니다.

1 서론

자연어 처리(NLP)에서 텍스트 스타일 전환(Textual Style Transfer, TST) 과제는 매우 중요한 위치를 차지한다. 이 과제는 원본 콘텐츠를 유지한 채 텍스트를 한 스타일에서 다른 스타일로 자동 변환하는 작업을 의미한다. 예를 들어, 복잡한 법률 문서나 셰익스피어풍의 문서를 일반인이 이해하기 쉬운 평이한 언어로 바꾸어 가독성을 높일 수 있다(Xu et al., 2012). 소셜 미디어 관리나 고객 서비스 분야에서는 응답 문장의 감정을 원하는 톤으로 조정하여 더 정중하거나, 공감적이거나, 단호하게 표현할 수 있도록 하는 역할을 수행하기도 한다(Wu et al., 2019).

대규모 언어 모델(LLM)은 뛰어난 텍스트 이해 능력과 맥락 학습 능력 덕분에 few-shot 혹은 zero-shot 방식으로 TST 작업을 효과적으로 처리할 수 있다. 최근 LLM을 활용한 TST 연구는 주목할 만한 성공을 거두고 있다(Reif et al., 2022; Suzgun et al., 2022; Han et al., 2024; Lai et al., 2024). 그러나 이러한 효과에도 불구하고, LLM 기반 TST 방법은 프롬프트를 자동으로 구성하는 데 어려움이 있으며, 모델 내부의 고정된 스타일 편향(stylistic biases)을 완화하는 데 어려움을 겪고 있다.

프롬프트 구성 문제:
기존의 LLM 기반 TST 방법은 대부분 수작업으로 작성된 프롬프트에 크게 의존하고 있다(Reif et al., 2022; Suzgun et al., 2022; Lai et al., 2024). 이러한 프롬프트 작성 과정은 목표 스타일의 텍스트를 분석하고, 핵심 언어 특징(예: 어휘, 구문 등)을 파악하며, 대표적인 샘플을 선별한 후 이를 바탕으로 LLM을 위한 맞춤형 프롬프트를 구성하는 방식으로 이루어진다. 이 과정은 상당한 노동력과 시간이 요구된다.
LLM의 내재적 스타일 편향 문제:
LLM은 의도된 맥락을 완전히 파악하지 못하는 경우가 많으며, 이는 원본 텍스트와 일관되지 않거나 환각(hallucination)을 포함한 텍스트를 생성하는 결과를 초래할 수 있다(Shi et al., 2024; Chuang et al., 2024). TST 작업에서 이 문제는 내재된 스타일 편향(inherent stylistic bias) 형태로 나타난다(Reynolds and McDonell, 2021). 즉, 모델은 주어진 스타일 전환 지시나 few-shot 예시보다 사전 학습된 지식에 더 의존하게 되어, 목표 스타일로 전환 시 원치 않는 스타일 변화가 발생할 수 있다.

프롬프트 구성하는데 노력이 들고.. LLM이 원하는 스타일로 변경하라는 지시사항을 잘 못따른다는 단점이 있다는 듯

이러한 도전 과제들을 바탕으로 다음과 같은 두 가지 연구 질문을 제기한다:

질문 1: 임의의 TST 작업에서 LLM을 위한 고품질의 프롬프트를 어떻게 자동으로 합성할 수 있을까?
질문 2: 프롬프트를 합성한 후, 모델이 내부적으로 축적된 사전 지식보다는 프롬프트의 내용을 우선하도록 유도하여 스타일 편향을 완화할 수 있을까?

위 질문에 대한 해답을 찾기 위해, 본 논문에서는 새로운 접근법인 **Synthesize-then-Decode (SYNDEC)**를 제안한다. 이 접근법은 고품질의 프롬프트를 자동으로 생성하며, 모델의 디코딩 과정에서 프롬프트의 효과를 증대하여 텍스트 스타일 전환을 보다 효율적으로 유도한다.

구체적으로, (1) 합성(Synthesizing) 단계에서 SYNDEC는 의미적-구조적 결합 샘플링, 패턴 분석, few-shot 샘플 재순위화를 거쳐 프롬프트를 합성한다.

우선 모든 샘플을 의미적-구조적 공간에 임베딩한 뒤 클러스터링 알고리즘을 적용하여 스타일적으로 대표성이 강한 샘플들을 few-shot 예시로 선택한다.
다음으로 LLM을 통해 선택된 샘플들의 스타일 전환 특징을 어휘(lexis), 구문(syntax), 어조(tone), 의미(semantics)의 네 가지 차원에서 분석한다.
이렇게 얻은 few-shot 예시와 분석 결과는 "분석 체인(analysis chain)" 형태로 통합된 후, 입력과의 유사도를 기준으로 재순위화되어 최종 프롬프트를 생성한다.

(2) 디코딩(Decoding) 단계에서 SYNDEC는 언어 모델이 디코딩 과정에서 프롬프트 맥락을 충분히 반영하도록 보장한다.

특히 프롬프트가 있는 경우와 없는 경우의 출력 확률 차이를 극대화하고, 프롬프트와 부정적(negative) 샘플 간의 확률 차이를 증폭시켜 생성된 텍스트에 프롬프트의 유도 효과를 강화한다.

실험 결과 SYNDEC는 5개의 공개 벤치마크와 자체 제작한 다중 스타일 데이터셋에서 탁월한 성능을 보였으며, 여섯 가지 벤치마크 중 다섯 가지에서 최신의 LLM 기반 방법을 능가하였다. 예를 들어 현대 영어를 엘리자베스 시대 영어로 전환하는 작업에서 정확도를 최대 9%까지 향상시켰다. 또한 SYNDEC의 성능에 영향을 미치는 요소들을 철저히 조사하기 위해 제거(ablation) 연구를 수행하였다.

본 논문의 주요 기여를 요약하면 다음과 같다:

효율적이고 효과적인 임의 스타일 전환을 위해 LLM을 활용한 혁신적인 SYNDEC 접근법을 제안한다. 이를 통해 (1) 프롬프트 구성에 소요되는 노동 집약적인 과정을 크게 줄이고, (2) LLM의 내재된 스타일 편향을 완화하는 두 가지 목표를 달성하였다.
임의의 TST 작업에 적응할 수 있도록 의미적·구조적 변화를 동시에 고려하는 샘플링 전략을 제안하여, 대표적인 few-shot 샘플을 확보하였다. 이 전략의 효과는 제거 실험을 통해 엄격하게 검증되었다.
세 가지 기존 방식과 여섯 가지 벤치마크 데이터셋을 포함한 포괄적인 베이스라인 비교 실험을 수행하여, 다섯 개 벤치마크에서 현재 최신(SOTA) 방법을 능가하였다. 감정 전환(sentiment transfer) 작업에서는 97%, 현대 영어 변환에서는 99%의 인상적인 정확도를 달성하였다. 또한 전문가 평가에서도 최상위 성능을 보였다.
두 가지 복잡한 다중 스타일 전환 시나리오를 포함한 다중 스타일 전환 데이터셋을 제작하여, 복잡한 임의 스타일 전환 작업에서 새로운 접근법의 성능 평가를 위한 추가적인 기준을 제시하였다.

2 관련 연구

대규모 언어 모델(LLM) 기반 텍스트 스타일 전환

최근 텍스트 스타일 전환(TST, Textual Style Transfer) 분야의 발전은 다양한 방법론의 근간으로서 대규모 언어 모델(LLM)을 통합하여 유망한 성과를 보이고 있다(Reif et al., 2022; Suzgun et al., 2022; Roy et al., 2023; Ostheimer et al., 2023; Han et al., 2024; Lai et al., 2024). 이러한 방법론들은 방대한 지식 저장소의 지원을 받아 병렬 데이터(parallel data)의 제약을 초월하고, 임의의 텍스트 스타일 전환을 달성할 수 있는 범위를 크게 확장하였다.

LLM을 위한 프롬프트 구성(Prompt Construction)

프롬프트 공학(prompt engineering)에서 프롬프트의 작성 또는 구성은 매우 중요한 작업이다. LLM의 맥락 내 학습 능력(in-context learning ability)은 프롬프트의 품질에 크게 의존한다(Liu et al., 2023; Dong et al., 2023; Wang et al., 2023). 따라서 프롬프트를 더 잘 구성하거나 설계하는 작업에 대한 연구가 점점 활발히 이루어지고 있다. Shin 등(2020)은 프롬프트가 경사도 유도 탐색(gradient-guided search)을 통해 자동으로 정제될 수 있음을 보여주었다. Yang 등(2023)은 LLM을 반복적 최적화(iterative optimization)에 사용하는 방법을 제시하였다. 이 방법은 과제를 자연어로 기술하고, LLM이 반복적으로 해법을 생성 및 정제하면서 향후 반복(iteration)을 위한 프롬프트를 점진적으로 개선하는 방식이다. 그러나 LLM 기반 TST에서 프롬프트 구성은 여전히 수동적인 방식에 의존하며 자동화되지 않은 상태이다.

LLM에서의 지식 충돌(Knowledge Conflicts)

지식 충돌(knowledge conflict)은 LLM이 환각(hallucination)을 발생시키는 주요 원인으로, 특히 맥락적 지식(contextual knowledge)이 모델의 기존 지식(prior knowledge)과 모순될 때 모델이 맥락에 충분히 주의를 기울이지 않음으로 인해 발생한다(Longpre et al., 2021; Tan et al., 2024). 대비적 디코딩(contrastive decoding)은 LLM이 맥락에 더 집중하도록 하여 지식 충돌을 완화하는 데 효과적임이 입증되었다(Shi et al., 2024; Chuang et al., 2024). 본 연구에서는 이러한 지식 충돌을 감소시키는 능력을 활용하여, 합성된 프롬프트를 사용한 대비적 학습(contrastive learning) 방식을 채택하여 LLM이 기존에 학습한 스타일에 대한 지식(prior stylistic knowledge)을 줄이고자 한다.

3 방법론(Methodology)

3.1 문제 정의(Problem Formulation)

본 연구에서 사용하는 기본적인 표기를 먼저 정의한다. 모든 텍스트의 집합을 $T$ 라고 하고, 특정 텍스트 인스턴스를 $x \in T$ 라고 하자. 모든 가능한 텍스트 스타일의 공간을 $S$ 라고 하며, 특정 스타일을 $s \in S$ 로 나타낸다. 특히, 스타일 $s$ 를 가진 텍스트 $x$ 를 쌍(pair)으로 $\langle x, s \rangle$ 로 표기한다.

정의 1 (LLM 기반 임의의 텍스트 스타일 전환)
LLM $\ell$ , 원본 스타일이 $s_1$ 인 입력 텍스트 $x$ , 목표 스타일 $s_2$ , 그리고 스타일 전환을 위한 지침을 제공하는 프롬프트 $p$ 가 주어졌을 때, LLM 기반 임의의 텍스트 스타일 전환 과제는 다음과 같이 정의된다:

\langle \hat{x} : \hat{s}_1 \rangle = \ell(\langle x, s_1 \rangle, s_2, p)

여기서 $\hat{x}$ 와 $\hat{s}_1$ 은 전환 후 생성된 텍스트와 그에 해당하는 스타일을 나타낸다. $s_1, \hat{s}_1, s_2 \in S$ 이며, $x, \hat{x}, p \in T$ 이다.

정의 2 (LLM의 Naive Decoding)
LLM $\ell$ , 입력 $x$ , 프롬프트 $p$ 가 주어졌을 때, LLM의 응답은 $x$ 와 $p$ 에 조건부로 주어진 확률 분포를 바탕으로 자기회귀적(autoregressive)으로 생성된다:

y_t \sim \tilde{p}_\theta(y_t | y_{<t}, x, p)

여기서 $t$ 는 생성 단계(time step)를 나타내며, $y_{<t}$ 는 현재 단계 $t$ 이전에 생성된 모든 토큰(token)을 나타낸다. $y_t$ 는 현재 생성된 토큰이며, $y_t, y_{<t}, x, p \in T$ 이다.

3.2 Synthesize-then-Decode 접근법

그림 1에서 보듯이, 본 논문에서 제안하는 SYNDEC(Synthesize-then-Decode) 접근법은 합성(synthesizing) 단계와 디코딩(decoding) 단계 두 가지로 구성된다.

합성 단계에서는 few-shot 샘플을 선정하여 스타일 전환 패턴을 추출하고, 이를 재순위화하여 최종 프롬프트를 구성한다(3.3절 참고).
디코딩 단계에서는 부정적 샘플(negative sample)을 도입하고, 모델의 출력 확률을 프롬프트에 맞게 조정하여 스타일 전환의 효과성을 높인다(3.4절 참고).

다음 장에서 합성과 디코딩에 대해 자세히 설명한다.

3.3 합성 단계(Synthesizing Stage)

Few-shot 학습은 LLM이 소수의 예시(few-shot)만으로도 별도의 전문적 학습 없이 새로운 작업에 빠르게 적응하도록 한다(Brown et al., 2020; Min et al., 2022). 본 논문에서는 연구 질문(Q1)에 답하기 위해 few-shot 학습을 기반으로 자동화된 TST 프롬프트 합성 파이프라인을 제안한다. 합성 과정은 다음과 같은 세 단계로 구성된다: 의미적-구조적 샘플링(semantic-structural sampling), 패턴 분석(pattern analysis), few-shot 재순위화(reranking).

3.3.1 의미적-구조적 샘플링(Semantic-Structural Sampling)

기존의 LLM 기반 TST 방법(Suzgun et al., 2022; Liu et al., 2024b)에서는 수작업으로 선택된 few-shot 예시가 일반적으로 의미적·구조적 차원에서 대표성을 갖는다. 이 few-shot 예시들은 모델이 원본 콘텐츠의 정확성을 유지하면서 스타일 전환을 수행하도록 유도하는 데 중요한 역할을 한다. 본 논문에서는 이 선택 과정을 자동화하기 위해 새로운 샘플링 전략을 제안한다. 이 방법은 샘플을 의미적-구조적 결합 공간에 임베딩(embedding)한 후 비지도 클러스터링(unsupervised clustering)을 적용하여 대표적인 few-shot 예시를 자동으로 선택한다. 그림 2는 SYNDEC가 선정한 few-shot 샘플이 무작위로 선택한 샘플보다 수작업 샘플과 더 가까움을 나타낸다.

임베딩(Embedding):
(Vashishth et al., 2019; Kumar et al., 2020)을 참조하여 Directed Graph Convolutional Networks(DGCNs) 기반의 문장 임베딩 방법을 활용한다. 이 방법은 구문 의존성(syntactic dependency)과 의미적 특징(semantic features)을 통합한다. 구체적으로, 주어진 문장 쌍 $q_i$ 의 구문 의존성 구조를 분석하여 방향성 그래프(directed graph) $G_{q_i} = (V_{q_i}, E_{q_i})$ 를 구성한다. 여기서 노드 집합 $V_{q_i}$ 는 문장을 구성하는 단어 $\{w_1, w_2, \dots, w_n\}$ 이며, 에지 집합 $E_{q_i}$ 는 노드 간의 구문적 관계를 나타낸다. 이 그래프에 여러 계층(layer)의 그래프 컨볼루션(graph convolution)을 적용하여 노드 표현(node representation)을 얻은 후 평균 풀링(average pooling)을 통해 문장 수준의 벡터 표현을 생성한다(수식 및 알고리즘 생략하지 않고 모두 본문 참조).
클러스터링(Clustering):
의미적-구조적 결합 공간에 임베딩된 벡터 표현을 분할하기 위해 수정된 k-means++ 클러스터링 알고리즘(Arthur and Vassilvitskii, 2007)을 사용한다(알고리즘 1 참조). 이 알고리즘은 초기 중심점을 선택한 후 반복적으로 클러스터의 중심을 업데이트하여 최종적으로 클러스터 중심을 문장 형태로 다시 역변환(de-embedding)하여 대표적인 few-shot 문장 쌍을 얻는다.

DGCN으로 모든 스타일의 문장을 임베딩하고, 이들을 k-means++로 클러스터링해서 중심점을 찾는다.

중심점에 가까운 각 스타일의 대표 문장을 찾고 이를 쌍으로 매핑하여 few-shot 샘플로 사용하는듯?

이 과정이 먼가 명확하지 않은듯

그리고 만약 스타일별로 군집화 된다면? 유의미한 쌍이 되는것인가?

3.3.2 패턴 분석(Pattern Analysis)

대표적인 few-shot 예시를 선택한 후 다음 단계는 이 샘플들의 스타일 전환 패턴을 분석하는 것이다. 이 분석은 LLM이 텍스트 스타일 전환을 수행할 때 따라야 하는 명확한 지침을 제공하는 것을 목표로 한다.

우리는 few-shot 예시를 **어휘(lexis), 구문(syntax), 어조(tone), 의미(semantics)**라는 네 가지 스타일 차원에서 분석한다.
이 과정에서 맥락 학습(context learning)을 촉진하기 위해 미리 정의된 설명적 프롬프트(descriptive prompts)를 LLM에 제공한다.
예제 1은 각 차원에서 스타일 전환의 특징을 설명하는 프롬프트를 보여준다.

예제 1: 설명적 프롬프트(Descriptive Prompts)

프롬프트 1 (어휘 분석): "다음 문장 쌍의 어휘적 차이를 단어 선택, 어휘 수준, 스타일적 표현 측면에서 분석하라."
프롬프트 2 (구문 분석): "이 스타일 전환 문장 쌍의 구문 구조를 비교하여 문장 구성, 문법 패턴, 구문의 차이에 중점을 두고 분석하라."
프롬프트 3 (어조 분석): "이 텍스트들의 어조를 평가하고 분위기, 감정적 신호, 주제에 대한 태도를 비교하라."
프롬프트 4 (의미 분석): "이 문장 쌍 사이의 의미적 변화를 분석하여 의미, 맥락, 해석의 차이를 파악하라."

분석 체인(Analysis Chain): 네 가지 분석 결과를 연속적으로 구성하여 분석 체인 형태로 만든다. 각 few-shot 샘플마다 어휘, 구문, 어조, 의미 분석 결과가 연결되어 구성된다(예제 2 참조).

예제 2: 분석 체인 예시

체인 1: [샘플 1] [분석 1-1 (어휘)] [분석 1-2 (구문)] [분석 1-3 (어조)] [분석 1-4 (의미)]
체인 2: [샘플 2] [분석 2-1 (어휘)] [분석 2-2 (구문)] [분석 2-3 (어조)] [분석 2-4 (의미)]

3.3.3 Few-shot 재순위화(Reranking)

기존 연구(Kumar and Talukdar, 2021; Guo et al., 2024)는 few-shot 샘플의 순서가 프롬프트 구성의 효과성에 중요한 영향을 미친다는 것을 보여주었다. 입력 문장과 더 유사한 샘플을 앞에 배치하면 더 나은 맥락적 일치를 달성할 수 있다.

따라서 입력 문장 $x$ 와 few-shot 샘플 $Q^* = (pair_1, pair_2, \dots, pair_n)$ 을 동일한 의미적-구조적 공간에 임베딩하여 이들의 벡터 표현을 얻는다. 그런 다음 입력 문장과 각 few-shot 샘플 간의 코사인 유사도(cosine similarity)를 계산하고, 유사도가 높은 순서대로 정렬하여 최종 프롬프트를 생성한다.

근데 그러면 매 입력에 따라 few-shot 순서를 재랭킹해야하나? 과정이 그렇게 복잡한거 같지는 않기는한데..

이로써 최종적으로 재순위화된 샘플들과 분석 체인이 시스템 프롬프트에 통합되어 최종 프롬프트 $p$ 를 구성하게 된다.

3.4 디코딩 단계(Decoding Stage)

연구 질문(Q2)에 답하기 위해, 우리는 대비적 학습(contrastive learning)을 통해 LLM의 출력 확률을 높이는 대비적 디코딩(contrastive decoding) 전략을 사용한다(Shi et al., 2024; Zhao et al., 2024). 프롬프트가 있는 경우와 없는 경우, 긍정 및 부정적 샘플 사이의 확률 차이를 비교함으로써 프롬프트 $p$ 의 효과를 강화하고 스타일 편향을 줄이고자 한다. SYNDEC의 디코딩 과정은 다음과 같이 수식화된다:

y_t \sim \tilde{p}_{\theta}(y_t | p, s^-, x, y_{<t})

이를 더 구체적으로 나타내면 다음과 같다:

\tilde{p}_{\theta}(y_t | p, s^-, x, y_{<t}) \propto p_{\theta}(y_t | p, x, y_{<t}) \left( \frac{p_{\theta}(y_t | p, x, y_{<t})}{p_{\theta}(y_t | x, y_{<t})} \right)^\alpha \times \left(\frac{p_{\theta}(y_t | p, x, y_{<t})}{p_{\theta}(y_t | s^-, x, y_{<t})}\right)^\beta

첫 번째 항 $p_{\theta}(y_t|p,x,y_{<t})$ 는 프롬프트 $p$ 가 주어졌을 때 모델의 예측을 나타내며, $p_{\theta}(y_t|x,y_{<t})$ 는 프롬프트 없이 입력 $x$ 에 대해 내부 파라미터만으로 생성하는 모델의 응답을 나타낸다.

프롬프트 준수(prompt adherence)를 강화하고 LLM의 내재된 스타일 편향을 완화하기 위해, 이 둘 간의 확률 차이를 매개변수 $\alpha$ 를 통해 증폭시킨다.

여기서 $s^-$ 는 TST와 무관한 부정적(negative) 샘플로서, 스타일 전환의 효과를 방해할 수 있는 샘플을 의미한다. 부정적 샘플로는 미리 작성된 긴 텍스트를 사용하며, 자세한 사항은 다음 섹션에서 설명한다. 마지막 항 $\left(\frac{p_{\theta}(y_t|p,x,y_{<t})}{p_{\theta}(y_t|s^-,x,y_{<t})}\right)^\beta$ 는 프롬프트 $p$ (긍정적 샘플)와 부정적 샘플 $s^-$ 간의 대비를 기반으로 예측을 조정하여, 부정적 샘플 $s^-$ 에 일치하는 토큰의 생성을 억제한다. 이 효과는 매개변수 $\beta$ 로 조정된다.

최종적으로 위 식을 정규화하여 유효한 확률 분포를 얻는다:

y_t \sim \text{softmax}\big[(1+\alpha+\beta)\log p_{\theta}(y_t|p,x,y_{<t}) - \alpha \log p_{\theta}(y_t|x,y_{<t}) - \beta \log p_{\theta}(y_t|s^-,x,y_{<t})\big]

본질적으로 SYNDEC는 프롬프트 $p$ 와 부정적 샘플 $s^-$ 을 모두 반영하여 예측을 조정함으로써, LLM의 내재적 스타일 편향과 잘못된 정보(misleading information)를 완화하며 통제된 스타일 전환을 가능하게 한다. $\alpha = 0$ 및 $\beta = 0$ 으로 설정하면 모델은 기본적인 naive decoding(정의 2와 같이)으로 되돌아간다.

1. 즉 prompt을 넣어줘서 목표 스타일 문장을 생성하는 것이 prompt없는것보다 더 잘생성해줘야한다

2. 무관한 style을 샘플로 넣어서 생성하라는 것보다, 없는것이 더 잘생성해줘야한다

이 2가지를 고려하여 decoding 전략을 세웠다는 것이다. 논리는 그럴싸한데 prompt없이 목표 문장을 어떻게 생성하는거지? 그냥 token logit을 뽑아내기 위해 보는것인가?

3.4.1 부정적 샘플 $s^-$ 의 구성

부정적 샘플 $s^-$ 를 구성하기 위해, 우리는 Zhao 등(2024)의 방법에서 구축된 무관한 문맥(irrelevant context)에서 의미적 연관성이 가장 낮은 텍스트를 선택했다. 구체적으로는 langchain의 recursive text splitter를 이용하여 미리 무관한 문맥을 고정된 크기의 텍스트 청크(text chunk)로 분할하였다. 디코딩 시마다, 프롬프트와 의미적-구조적 결합 공간에서의 유사도가 가장 낮은 세그먼트를 부정적 샘플 $s^-$ 로 선택하여 대비적 디코딩에 사용하였다.

3.4.2 최적화 매개변수 $\alpha$ 및 $\beta$

최적화 매개변수 $\alpha$ 와 $\beta$ 의 최적값을 찾기 위해 베이지안 최적화(Bayesian optimization)를 사용하였다. 최적화는 Optuna 프레임워크를 통해 수행되었으며, 탐색 공간을 가우시안 프로세스(Gaussian processes)로 모델링하였다. 초기값은 $\alpha = \beta = 5$ 로 설정하였으며, 알고리즘은 이 매개변수를 반복적으로 세밀하게 조정하면서 최적화 지형(optimization landscape)을 탐색하고 업데이트하였다.

이값은 그러면 테스크별로 달라지는것인가?

4 실험(Experiments)

4.1 실험 환경(Experimental Setup)

작업(Tasks) 및 데이터셋(Datasets)
우리는 스타일 전환 능력을 평가하기 위해 다음 벤치마크를 사용한다.

감정 전환(Sentiment transfer)
이 작업에서는 Yelp polarity 데이터셋(Zhang et al., 2015)과 Amazon 리뷰 데이터셋(Li et al., 2018)을 사용하여 감정(sentiment)의 전환을 평가한다.
격식성 전환(Formality transfer)
격식성(formality)의 변화는 DeleteAndRetrieve 방법론(Li et al., 2018)에서 제시된 Formality Corpus (GYAFC) 데이터셋을 사용하여 평가한다.
엘리자베스 시대 영어 → 현대 영어 전환
엘리자베스 시대 영어를 현대 영어로 전환하는 능력을 평가하기 위해 SHAKESPEARE 데이터셋(Xu et al., 2012)을 사용한다.
복잡성 전환(Complexity transfer)
복잡성의 전환 평가를 위해 원본 문장과 단순화된 문장 간의 병렬 데이터로 구성된 COMPLEX 데이터셋(Xu et al., 2016)을 사용한다.
다중 스타일 전환(Multi-style transfer)
부정적 엘리자베스 시대 영어에서 긍정적 현대 영어로의 다중 스타일 전환을 평가하기 위해 자체 제작한 multi-style 데이터셋을 사용한다. 이 데이터셋의 구성 과정은 부록(supplementary material)에 상세히 설명되어 있다.

공백(spaces)이나 특수문자(unusual characters)가 스타일 전환에 미치는 영향을 최소화하기 위해, PromptAndRerank(Suzgun et al., 2022)에서 제공한 전처리 도구를 사용하여 데이터셋의 품질을 향상하였다.

베이스라인(Baseline)
우리는 SYNDEC 방법과 다음과 같은 대표적인 베이스라인 방법들을 비교 평가한다:

(1) LLaMA-3 (Grattafiori et al., 2024)
추가적인 fine-tuning 없이 사전 학습된 LLaMA-3 모델로, 기본적인 베이스라인 역할을 한다.
(2) PEGF (Liu et al., 2024a)
텍스트의 일부 국소 영역만 수정하여 LLM이 스타일 전환을 수행하도록 유도하는 방법이다.
(3) APR (Liu et al., 2024b)
입력 문장의 특성에 따라 가장 적합한 프롬프트를 선택하여 스타일 전환을 향상시키는 프롬프트 라우팅 방법론이다.

근데 다른 방법론도 LLaMA3을 쓴 것인지?

평가 지표(Evaluation metrics)
텍스트 스타일 전환의 성능을 평가하기 위해 세 가지 주요 측면에 초점을 맞춘다:

스타일 전환 정확도(Style transfer accuracy)
선행 연구(Mir et al., 2019)를 따라 문장 수준의 스타일 분류기를 사용하여 스타일 전환 정확도를 측정하였다. 각 작업의 학습 데이터셋에서 RoBERTa-Large 모델(Liu et al., 2019)을 미세 조정(fine-tuning)하여 문장 수준의 이진 스타일 분류기로 사용하였다.
내용 보존(Content preservation)
내용 보존 능력은 SacreBLEU(Post, 2018)를 사용하여 측정하였다. 참조 BLEU(reference-BLEU, r-sBLEU)와 자기 BLEU(self-BLEU, s-sBLEU)를 계산하여 원본 문장과 생성된 문장 사이의 내용 보존을 평가하였다.
유창성(Fluency)
TST에서 유창성은 보통 언어 모델의 퍼플렉서티(perplexity)를 통해 측정한다. 우리는 GPT2-Large 모델(Radford et al., 2019)을 사용하여 퍼플렉서티(PPL)를 평가하였다.

전문가 평가(Expert Evaluation)
스타일 전환의 효과성을 평가하기 위한 전문가 평가를 수행하였으며, 주로 사용되는 세 가지 측면, 즉 스타일 전환 정확도, 내용 보존, 유창성을 중심으로 평가하였다. 각 측면은 1~5 Likert 척도로 평가되었으며, 5가 가장 높은 성능을 나타낸다. 평가는 전체 5가지 과제를 대상으로 총 240개의 스타일 전환 예시를 포함하였으며, SYNDEC와 베이스라인 방법에서 생성한 출력들을 모두 평가하였다. 스타일 분석 교육을 받은 언어학 전공 대학원생 15명이 평가자로 참여하였다. 각 평가자는 평균 약 3시간을 이 작업에 할애하였으며, 각 예시는 최소 3명의 평가자가 평가하였다. 평가자 간의 신뢰도를 측정하기 위해 Fleiss’ Kappa를 사용하였고, 그 결과 0.921의 점수를 얻어 높은 수준의 신뢰성을 나타내었다.

구현(Implementation)
각 데이터셋은 8:1:1의 비율로 학습(training), 샘플(sample), 테스트(test) 세트로 나누었다. 스타일 전환 정확도 평가를 위한 이진 분류기(binary classifier)의 미세 조정은 AdamW 옵티마이저(Loshchilov, 2017)를 사용하였다. 매개변수는 $\beta_1 = 0.9, \beta_2 = 0.999, \epsilon = 10^{-8}$ 로 설정하였다. 학습률(learning rate)은 초기 2 × 10^-5로 설정하고, 배치 크기(batch size)는 16이며, 총 20 에폭(epoch) 동안 학습하였다.

모든 LLM 기반 방법은 원 논문에 보고된 설정과 동일하게 LLaMA3-70B를 백본 모델(backbone model)로 사용하였다.

실험은 제대로 한듯

4.2 실험 결과(Results)

여섯 가지 벤치마크에서 SYNDEC의 경쟁력 있는 성능

표 1은 우리 방법론을 다른 최신 LLM 기반 방법들과 비교한 결과를 제시한다. SYNDEC는 스타일 전환 정확도 측면에서 모든 벤치마크에서 S1 → S2 (원본 → 목표) 방향의 경우, 다른 경쟁 방법들을 일관되게 능가하며 뛰어난 성능을 보인다. 특히, 엘리자베스 시대 영어에서 현대 영어로의 전환(SHAKESPEARE 데이터셋)에서는 99%라는 높은 정확도와 낮은 퍼플렉서티(perplexity) 점수인 80을 기록하였다. 보다 어려운 과제인 다중 스타일(multi-style) 전환에서도 SYNDEC는 매우 효과적인 성능을 입증했으며, 다른 방법들과 비교하여 정확도에서는 10%, r-sBLEU에서는 8.6, s-sBLEU에서는 14.1, 퍼플렉서티에서는 45만큼 앞섰다.
반대로 S2 → S1 (목표 → 원본) 방향의 스타일 전환에서도 SYNDEC는 스타일 전환 정확도에서 뛰어난 견고성을 보여주었으며, 내용 보존(content preservation)에 있어서는 여섯 가지 벤치마크 중 다섯 가지에서 다른 방법들을 크게 능가하였다.

전문가 평가(Expert evaluation)

그림 3은 전문가 평가 결과를 보여준다. 제안된 SYNDEC 방법론은 모든 TST 작업에서 일관되게 가장 높은 유창성 점수를 기록하였다. 또한 다섯 가지 스타일 전환 작업 중 세 가지에서 스타일 전환 정확도와 내용 보존 측면에서 인간 평가자로부터 가장 높은 평가를 받았다. 추가로, 복잡성(complexity) 작업에서는 APR 방법이 스타일 전환 정확도에서 더 우수한 성능을 보였고, PEGF 방법은 격식성(formality) 작업에서 내용 보존 측면에서 더 우수한 성능을 나타내었다.

실험 결과의 요약

종합적으로, 제안된 SYNDEC는 스타일 전환 작업 전반에 걸쳐 최신 방법들보다 우수하거나 경쟁력 있는 성능을 보였다. 특히 SYNDEC는 다양한 스타일 전환 방향(S1→S2 및 S2→S1)에서 견고한 성능을 유지하고, 다른 방법들과 비교하여 정확도, 내용 보존 및 유창성 측면에서 모두 뛰어난 결과를 달성하였다. 이는 제안된 합성-디코딩(synthesize-then-decode) 방식과 대비적 디코딩 전략이 LLM 기반 스타일 전환에서 효과적임을 실험적으로 입증한 것이다.

4.3 분석(Analysis)

제거 실험(Ablation Study)

우리는 SYNDEC의 주요 요소들에 대한 제거(ablation) 실험을 수행하였다. 특히 프롬프트 합성(prompt synthesis, Q1 관련)과 디코딩 전략(decoding strategy, Q2 관련)에 초점을 두고 분석하였다. 평가에는 Yelp 데이터셋과 Multi-style 데이터셋을 사용하였다.

표 2와 표 3의 결과를 바탕으로 다음과 같은 주요 발견을 얻었다:

(1) 프롬프트 합성의 요소 중에서 샘플링(sampling)과 분석 체인(analysis chains)이 가장 중요한 요소로 나타났다. 무작위(random) 샘플링을 사용하거나 분석 체인을 생략하면 스타일 전환 정확도에 상당한 성능 저하가 발생했다. 이는 모델이 스타일 전환을 수행할 때 명확한 지침을 얻지 못하여 품질이 낮은 출력을 생성하기 때문이다. 반면, 재순위화(reranking)를 생략했을 때의 성능 저하 효과는 상대적으로 제한적이었다.

(2) 대비적 디코딩(contrastive decoding) 전략을 naive 디코딩으로 대체하면 모든 평가 지표에서 성능이 크게 떨어졌다. 이는 naive 디코딩이 LLM의 내재된 스타일 편향을 효과적으로 완화하지 못하며 프롬프트 정보를 충분히 활용하지 못함을 시사한다.

(3) 부정적 샘플 정렬(negative sample alignment)을 제거하면 퍼플렉서티(perplexity)에 강력한 부정적 영향을 미쳤고, 프롬프트 정렬(prompt alignment)을 제거하면 모든 주요 지표에서 현저한 성능 저하가 발생했다.

LLM 규모의 영향(Scale of LLM)

우리는 SYNDEC 성능에 대한 LLM 규모(scale)의 영향을 종합적으로 연구하였다(그림 4 참조). 주요 관찰 결과는 다음과 같다:

(1) LLM의 규모가 감소함에 따라 다양한 TST 과제에서 SYNDEC의 스타일 전환 정확도가 점진적으로 떨어졌다.

(2) 복잡성(complexity) 및 다중 스타일(multi-style)과 같은 더 복잡한 과제에서는 LLM 규모 축소의 부정적 영향이 더욱 두드러졌다. 이는 내용 보존(content preservation)을 나타내는 지표(예: s-sBLEU 및 r-sBLEU)의 급격한 하락과 퍼플렉서티(perplexity)의 상승으로 나타났다.

5 결론(Conclusion)

본 논문에서는 LLM 기반 텍스트 스타일 전환에서의 주요 도전 과제들을 해결하기 위해 설계된 혁신적인 접근법인 SYNDEC을 소개하였다. SYNDEC은 고품질의 프롬프트를 자동으로 합성하고, 디코딩(decoding) 과정에서 이 프롬프트의 효과를 증폭시킴으로써 텍스트 스타일 전환 능력을 크게 향상시킨다. 실험 결과, SYNDEC은 기존의 최신 LLM 기반 방법들을 일관되게 능가하는 성능을 보였으며, 그 효과성을 실험적으로 검증하였다.

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information