◼ Comment

Data Generation Disguised as Style-Transfer: The LLM Perspective
내가 느끼기엔 크게 컨트리뷰션이 2개다

1. LLM이 문장 인코딩할때, style 정보를 담고있냐?

이를 알기 위해, hidden state에다 linear 모델을 붙여서 스타일분류 모델을(프로브) 간단히 학습한다
학습해보니 분류기 성능이 높다는 것을 알 수가 있고, 즉 임베딩에 style 정보를 담고있는 것을 확인한다
그래서 LLM이 스타일 트랜스퍼를 할 수 있다는 것을 뒷받침할 수 있다

2. LLM에게 Gen Z에 맞는 데이터 트랜스퍼를 시켜서 데이터세트를 구축한다

만들어진 데이터세트에서도 같은 분석을 통해, 스타일이 잘 구분됐는지 확인한다

흠 하지만 왜 이렇게 데이터를 만들어야하지?

어차피 LLM이 스타일을 잘 이해하고 있다면 그냥 CoT나 그런걸로 데이터 만드는것도 가능할텐데?
명시적으로 스타일 강도를 줘서 좀더 세부적인 데이터세트를 만들 수 있는 장점이 있는거 같긴한데, 이러면 LLM이 직접 데이터 만드는 것은 어려울거 같음
따라서 binary가 아니라 스타일 강도에 따른 데이터를 만들고 이에 대한 유용한 간단한 실험을 해주면 좋을거 같음.
논문의 동기가 약하다는 느낌을 받았음

프롬프트 디자인도 결국 스타일 안내형이 좋다는 것인데

이거 보여주는 것도 cherry pick으로 예시를 보여줬는데, 모든 데이터에 대해 실제 attention이 어떻게 되는지 통계적으로 보여주는게 좋을거 같음
스타일 중립형은 굳이 설명안해도 될거 같이 보임

프로브 학습시 train/valid dataset 구성에 대한 정보가 있어야할거 같음
실험 reproduce를 위해 사용된 프롬프트는 부록에 공개하는게 좋을거 같음

Abstract

대규모 언어 모델(LLM)의 스타일 전환(style-transfer) 능력은 연구 커뮤니티에서 주목받고 있다. 본 논문에서는 스타일 전환을 위해 후보가 되는 모델들이 원본 스타일과 목표 스타일의 개념적 이해 능력을 갖추고 있는지, 그리고 이를 데이터가 부족한 상황에서 새로운 데이터를 생성하는 데 활용할 수 있는지 탐구한다. 우리는 서로 다른 스타일을 구분할 수 있는 모델이 특정 스타일의 텍스트를 생성하도록 유도될 수 있음을 관찰하였다. 데이터가 부족하여 충분한 예제를 확보하기 어려운 연구 상황에서, LLM을 활용하여 예비 연구를 위한 데이터를 생성할 수 있는지 조사하였다. 본 연구는 우선적으로 "LLM이 데이터가 부족한 상황에서 구원투수가 될 수 있는가?"라는 질문을 던진다. 이어서, 우리는 LLM이 다양한 스타일로 작성된 텍스트를 구별하는 성능을 정량적으로 보여주고, 특정 스타일 A로 작성된 텍스트가 주어졌을 때 LLM을 개입(intervene)시켜 해당 텍스트의 스타일을 변경할 수 있는지 질적으로 보여준다. 우리는 이를 Generation Z(젠지) 특유의 유해성(toxicity)을 다룬 특정 사례에 적용하였으며, 이 경우 인간이 직접 작성한 텍스트 컬렉션을 구성하는 것이 매우 어려운 작업임을 보였다.

1 서론(Introduction)

스타일 전환(style-transfer)은 여러 분야에서 다양하게 응용되고 있다. 예를 들어, 형식성(formality), 감정(sentiment) 등 언어적 특성을 바꾸는 데서부터(Li et al., 2019), 복잡한 전문 용어를 단순화하거나(Manor and Li, 2019), 대화형 에이전트를 문화에 맞게 적응시키는 작업(Roy et al., 2023)에 이르기까지 광범위한 영역에서 활용되고 있다. 그러나, 우리가 아는 한, 특정한 언어적 특성을 가진 데이터셋을 처음부터 구축하기 어려운 데이터 부족 상황을 완화하는 데 스타일 전환 환경을 활용한 연구는 지금까지 없었다.

여기서 우리는 다음과 같은 질문을 던진다.

기존에 잘 입증된 LLM의 스타일 전환 능력을 활용하여 기존의 텍스트 데이터셋을 원하는 특성을 가진 형태로 변환할 수 있을까?

먼저, 모델의 내부 작동 원리를 철저히 조사하는 것이 중요하다(von Rutte et al., 2024). 특히, 모델이 원하는 스타일을 본질적으로 이해하고 있는지 면밀히 살펴봐야 한다. 본 연구에서는 우선 대규모 언어 모델(LLM)의 활성화 공간(activation space)을 더 깊이 탐구하여 다양한 스타일의 미묘한 뉘앙스를 포착하는 구분 가능한(distinct), 겹치지 않는(non-overlapping) 스타일별 부분공간(subspace)이 존재하는지 확인한다. 스타일별 부분공간 간의 높은 분리성(separability), 즉 낮은 중복성(overlap)은 해당 LLM이 스타일 전환 작업을 수행할 잠재적 능력을 가졌음을 시사한다. 이와 관련하여, 후속 질문으로, 스타일 전환 과정을 원하는 스타일의 강도(intensity)에 맞게 안정적으로 제어할 수 있는지 여부를 살펴본다. 우리는 기존 스타일에서 목표 스타일로 방향성 이동(direction shift)을 통한 개입(intervention)을 탐구한다.

그림 1은 다소 무례한(obnoxious) 스타일로의 예제 변환을 제시하며, 모델이 Generation Z(젠지)의 언어적 뉘앙스를 재현할 수 있음을 보여준다.

이 능력의 활용 사례로, 젠지의 언어적 특수성에 가려진 유해성(toxicity)을 탐구하는 작업을 고려할 수 있다.
이는 데이터셋을 직접 구축하는 것이 매우 어려운 과제이다.

그림 2는 젠지 구성원 간의 유해한 대화 사례를 제공한다. 그러나 젠지 용어에 익숙하지 않은 사람에게 이 대화는 이해하기 어렵다.

LLM으로 스타일 변환을 하여 만들기 어려운 데이터세트를 만든다는 것인가? 그러면 LLM으로 바로 데이터를 만드는것보다 좋은 것인가?

본 연구에서 우리는 우선 세 가지 널리 사용되는 LLM(LLaMA 3.1 8B Instruct (Grattafiori et al., 2024), Mistral 7B v0.3 Instruct (Jiang, 2024), Qwen 2.5 7B Instruct (Yang et al., 2024))의 활성화 공간에 스타일 특화 부분공간(style-specific subspace)이 존재하는지 살펴본다. 그 후, 이 부분공간들의 강건성(robustness)을 조사한다. 다음으로, 목표 스타일의 강도를 조절하기 위해 다양한 강도의 스티어링 벡터(steering vector)를 모델의 생성 과정에 투입하여 목표 스타일의 강도를 제어한다. 마지막으로 Generation Z의 사회적 방언(sociolect)에서 표현된 유해성을 중심으로 한 사례 연구를 제시한다.

연구의 기여:

본 연구의 주요 목적은 대규모 언어 모델이 효과적인 스타일 전환 도구로써 데이터 부족 상황에서 데이터 생성 도구로 기능할 수 있는지 탐구하는 것이다.
스타일 전환 능력에 대한 탐색은 크게 두 가지 방향으로 진행된다.
우선, 세 가지 대규모 언어 모델의 활성화 공간을 탐색하여 스타일 특화된 부분공간이 존재하는지 검증한다(섹션 4 참조).
우리는 지시문(prompt)에 스타일을 정의하는 용어가 존재하거나 존재하지 않는 형태로 변형하여 실험을 진행했으며, 스타일을 명확히 정의하는 용어의 존재가 모델 내부 표현을 풍부하게 만들어 분리 가능한 부분공간을 형성한다는 것을 정량적으로 입증했다(섹션 4.3).
또한, 선택한 레이어에서 헤드(head)의 일정 비율을 zero-ablation(0으로 제거)하여 스타일 특화 헤드의 존재 여부를 확인한다(섹션 4.5).
더 나아가, 다양한 강도의 스티어링 벡터를 계산하여 생성 과정이 특정 스타일로 얼마나 효과적으로 안내될 수 있는지 검증한다.
마지막으로, 새로운 스타일 전환 과제(섹션 5)를 도입하여 본 연구의 핵심 질문, 즉 "LLM을 활용하여 기존 데이터를 이용해 데이터 부족 상황에서 새 데이터셋을 만들 수 있는가?"에 대한 답을 찾는다.

LLM이 스타일변환을 하는거가 얼마나 잘할 수 있을지 분석도 함께 했다는 것.

스타일이라는 것의 의미를 담는 공간이 있는지 검증했고
스타일 특화 layer의 존재 여부도 확인했다고하는데..?

2 예비 지식(Preliminaries)

이 절에서는 본 연구 전반에 걸쳐 사용되는 주요 개념들에 대한 배경 지식을 제공한다.

2.1 개념의 표현(Representation of Concepts)

입력 $x = (x_1, x_2, \dots, x_n)$ 에 대해, 각 레이어(layer)의 각 헤드(head)는 중간 표현(intermediate representation)을 생성하며, 이를 **활성화(activation)**라고 부른다(Elhage et al., 2021).

활성화는 각 레이어에서 계산된 중간 잠재 상태(latent state)를 나타내며, 입력 시퀀스(sequence)에 대한 모델의 점진적 이해를 포착한다(von Rutte et al., 2024; Burns et al., 2022; Geva et al., 2020).

2.2 프로빙(Probing)

언어 모델 프로빙(probing)이란 기본적으로 지도학습(supervised) 방식을 활용하는 방법이다. 프로빙은 보조 분류기(auxiliary classifiers)를 사용하여 활성화(activation)를 분석하고, 사전 훈련된 언어 모델(pre-trained language model)이 내부 표현(internal representations) 내에 특정 개념 정보를 어느 정도로 인코딩하고 있는지를 정량화한다.

프로빙이란, 모델의 내부에서 이루어지는 계산이 어떤 특정한 개념이나 속성을 잘 구분하고 있는지를 확인하는 방법입니다.

수학적으로 정의하면, 입력 토큰 시퀀스(sequence) $x = (x_1, x_2, \dots, x_n)$ 을 은닉 상태(hidden state) 시퀀스 $h = M(x) = (h_1, h_2, \dots, h_n)$ 로 매핑하는 사전 훈련된 언어 모델 $M$ 이 있다고 할 때 ( $h_i \in \mathbb{R}^d$ , 여기서 $d$ 는 활성화 공간의 차원을 나타냄), 프로브(probe)는 매개변수 $\theta$ 로 정의된 함수 $f_{\theta}$ 로, 각 토큰 $x_i$ 에 대한 언어적 속성(linguistic property) $y_i$ 를 예측하는 역할을 한다. 이를 수식으로 표현하면 다음과 같다(Belinkov, 2022):

입력 x -> hidden statte h -> 언어적 속성 y

$y_i = f_{\theta}(h_i)$

프로빙 데이터셋은 입력-레이블(input-label) 쌍(본 연구에서는 레이블이 스타일임)의 집합으로 구성되며, 이를 $\{ (p^{(i)}, y^{(i)}) \}_{i=1}^{N}$ 로 표현한다. 각 프롬프트(prompt) $p^{(i)}$ 가 LLM에 입력으로 제공되면, 모델은 입력을 처리하면서 일련의 활성화들을 기록한다. 본 연구에서 각 프롬프트 $p^{(i)}$ 에 대한 활성화 집합은 각 레이어(layer) $l$ 의 각 주의 헤드(attention head) $h$ 에 대해 $x_{l,h}^{(i)}$ 로 표현된다. 그 후, 별도의 모델인 "프로브(probe)"가 이 추출된 활성화들을 기반으로 훈련되어 스타일(label)을 예측하게 된다.

본 연구에서 프로빙은 원본 스타일(source style)과 목표 스타일(target style) 간의 **분리성(separability)**을 나타낸다. 즉, 모델의 활성화 공간에서 서로 다른 스타일에 대한 내부 표현이 구별 가능한지 여부를 나타낸다. 분리성이 높다면, 모델이 원본 스타일에서 목표 스타일로의 스타일 전환(style-transfer)을 수행할 잠재 능력이 있음을 강조하며, 따라서 해당 모델은 이 작업을 수행할 수 있는 후보로 간주할 수 있다.

선형 표현 가설(Linear Representation Hypothesis)(Mikolov et al., 2013; Park et al., 2023)은 고차원 개념(high-level concepts)들이 활성화 공간 내에서 방향(direction)의 형태로 선형적으로(linearly) 표현된다고 주장한다. 따라서 본 연구에서는 각 레이어 $l$ 의 각 헤드 $h$ 에 대해 개념 간의 분리를 찾기 위해 선형 모델인 로지스틱 회귀(logistic regression)를 프로브로 훈련 및 적용한다(Voita et al., 2019; Olsson et al., 2022; Michel et al., 2019).

2.3 스티어링 벡터의 구성(Construction of Steering Vectors)

스티어링 벡터(steering vector)는 본질적으로 모델의 활성화 공간 내에서 적용되는 방향성 변환(directional transformation)으로, 토큰 생성(token generation)을 원하는 특성(characteristic)으로 체계적으로 이동시키는 역할을 한다(van der Weij et al., 2024a).

"모델이 문장을 특정 스타일로 생성하도록 유도하는 핸들 같은 역할을 하는 방향 벡터"가 스티어링 벡터입니다.

정식으로 수학적으로 정의하면, 텍스트 쌍(pair of texts)을 가진 데이터셋 $D$ 를 생각하자. 각 텍스트 쌍은 $(t_A^{(i)}, t_B^{(i)})$ 로 표현되며, 각 텍스트 $t^{(i)}$ 는 연관된 개념(concept) $y^{(i)} \in \{A, B\}$ 과 은닉 상태(hidden state) $^{1}$ $(h_A^{(i)}, h_B^{(i)})$ 를 갖는다. 여기서 스타일 A에서 스타일 B로의 변환을 위한 스티어링 벡터를 계산하기 위해 먼저 데이터셋 $D$ 에 대해 은닉 상태의 쌍별(pairwise) 차이를 다음과 같이 계산한다:

$V_{A \rightarrow B} = [h_A^{(i)} - h_B^{(i)}]_{i=1}^{|D|}$

이후, $V_{A \rightarrow B}$ 의 첫 번째 주성분(first principal component)을 추출하여(Rimsky et al., 2023) 이를 스티어링 벡터 $u$ 로 얻는다:

$u = \underset{\|u\|=1}{\text{arg max}} \|V_{A \rightarrow B}u\|_2$

여기서 $u$ 는 활성화 공간에서 개념 간 주요 변화 방향(dominant direction of variation)을 요약한다. 따라서 최종적으로 본 연구에서 사용하는 스티어링 벡터는 $\lambda u$ 로, 스칼라(scalar) $\lambda$ 는 개입(intervention)의 강도(strength)와 방향(direction)을 결정한다.

(각주¹ 원문에 따라 토큰별로 집계되거나, 마지막 토큰만을 고려하여 집계할 수 있다.)

3 관련 연구(Related Work)

텍스트 스타일 전환(Text Style Transfer)
텍스트 스타일 전환(Text Style Transfer, TST)은 주어진 텍스트가 담고 있는 의미적(semantic) 내용을 유지한 채로 스타일적(stylistic) 특성만 변형하는 작업을 말한다(Mir et al., 2019; Jin et al., 2020; Hu et al., 2022). TST는 여러 가지 다운스트림(downstream) 응용 분야에서 유용하게 사용되고 있는데, 예를 들어 영어와 힌디어에서의 유해성 제거(detoxification) 작업(Mukherjee et al., 2024), 저자 신분을 숨기기(authorship obfuscation) 위한 응용(Fisher et al., 2024) 등이 있다. 최근 대규모 언어 모델(Large Language Models, LLMs)의 발전(Brown et al., 2020; Wei et al., 2022)에 따라 스타일 전환 작업(Li et al., 2024; Luo et al., 2023; Reif et al., 2021; Horvitz et al., 2024)과 그 평가 작업(Ostheimer et al., 2023)에서 LLM 활용이 급격히 증가했다. 보다 상세한 리뷰는 Jin et al.(2020)를 참고하기 바란다.

개념의 선형적 표현(Linear Representation of Concepts)
고수준(high-level)의 추상적 개념들은 활성화 공간(activation space)에서 방향(direction)의 형태로 선형적으로(linearly) 표현된다고 믿어진다(Mikolov et al., 2013; Park et al., 2023; Nanda et al., 2023).

여러 연구들이 활성화 공간을 탐구하여 다양한 의미적 개념(semantic concepts)의 선형 표현을 찾으려 했다.

예를 들면,
공간과 시간(Gurnee and Tegmark, 2023),
감정(sentiment)(Tigges et al., 2023),
아첨(psychophancy)(Rimsky et al., 2023),
진실 혹은 정직(truth or honesty)(Marks and Tegmark, 2023; Azaria and Mitchell, 2023),
정치적 성향(political leaning)(Kim et al., 2025),
적절성 또는 유머(appropriateness or humor)(von Rutte et al., 2024)
등의 개념들이 있다.

더 나아가, 수많은 연구들이 추론 시(inference time)에 모델의 행동을 안내할 수 있는 개입 방향(intervention directions)을 계산하기 위해 선형적으로 구분 가능한 개념 공간의 잠재력을 탐구하였다(Zou et al., 2023; van der Weij et al., 2024b; Turner et al., 2023; Rimsky et al., 2023). 한편, Tan et al.(2024)는 이러한 접근법에 신중한 접근을 권고하였다.

4 실험 설계(Experimental Setup)

우리는 우선적으로 모델이 자신의 내부 활성화 공간(activation space)에서 서로 다른 스타일을 구별할 수 있는지 조사하고, 이를 바탕으로 특정한 스타일로 생성 결과를 다양한 강도로 유도할 수 있는지를 살펴본다.

4.1 모델 선정(Model Selection)

우리의 실험에는 서로 다른 모델 계열(family)에 속하는 세 가지 지시문 기반(instruction-tuned) 모델을 사용하였다. 구체적으로, LLaMA 3.1 8B Instruct(Grattafiori et al., 2024), Mistral 7B v0.3 Instruct(Jiang, 2024), **Qwen 2.5 7B Instruct(Yang et al., 2024)**를 선택했다.

LLaMA와 Mistral은 각 32개의 레이어(layer)에 각각 32개의 헤드(head)를 갖고 있으며, Qwen은 각 28개의 레이어에 각각 28개의 헤드를 갖고 있다. 따라서 레이어별 분석에서는 모델의 레이어 수만큼의 프로브(probe)를 사용하고, 더욱 심층적인 분석에서는 모든 레이어의 모든 헤드를 조사함으로써 총 (레이어 수 × 헤드 수)만큼의 프로브를 사용하였다.

4.2 데이터셋(Datasets)

우리는 동일한 내용을 서로 다른 스타일로 표현한 병렬(parallel) 텍스트를 포함한 두 가지 데이터셋을 선택하였다.

Shakespeare 데이터셋(Jhamtani et al., 2017):
이 데이터셋은 셰익스피어 작품에서 추출한 문장과 그 현대적 표현을 쌍으로 담고 있다. 예를 들어, 셰익스피어의 "Pray you, away."라는 문장은 현대적 표현으로 "Now please go."로 변환된다. 동일한 내용을 서로 다른 스타일로 표현할 때, 텍스트가 길수록 스타일적 뉘앙스가 명확하게 드러날 가능성이 높다. 따라서 원본 텍스트(셰익스피어 작품)를 공백(space)을 기준으로 토큰화(tokenize)한 후, 길이 제한으로 20토큰 이하를 기준으로 삼아(다소 임의적인 결정) 훈련 세트에서 2030개의 텍스트 쌍을 추출하였다.
GYAFC 데이터셋(Rao and Tetreault, 2018):
이 데이터셋은 비격식(informal) 문장과 이를 격식(formal) 표현으로 바꾼 쌍을 포함한다. 예를 들어, "i dunno, i just heard it somewhere"는 격식 표현으로 "I don't know. I just heard it somewhere."로 변환된다. 앞서와 동일하게 길이 제한을 설정하여, 훈련 세트에서 614쌍을 추출하였다.

4.3 프롬프트 설계(Prompt Design)

우리는 두 가지 형태의 프롬프트(prompt)를 활용한다.

첫 번째 형태는 **스타일 안내형(style-guided)**으로, 이 프롬프트에서는 이어질 텍스트의 스타일을 명확히 정의하는 용어(term)가 사용된다.
두 번째 형태는 **스타일 중립형(style-agnostic)**으로, 스타일을 정의하는 용어가 아예 사용되지 않는다. 두 가지 프롬프트의 예시는 그림 3에서 볼 수 있다.

[style A/B] 부분은 스타일 안내형 프롬프트에서는 실제로 스타일을 정의하는 구체적인 용어로 대체되며,
스타일 중립형 프롬프트에서는 이 용어를 그대로 남겨둔다. 예를 들어, “The following text is written a style A:”는 스타일 중립형 프롬프트에 해당한다.
프롬프트 내에서 스타일을 명확히 정의하기 어려운 상황에서는 중립형 프롬프트가 유용하게 사용될 수 있다.

스타일 안내형이란 것은 formal / informal 이렇게 스타일을 명시하는 것이고, 스타일 중립형은 그냥 A / B 이렇게 표기하는듯. 당연히 안내형이 좋은거 아닌가?

프롬프트 설계는 자기회귀(auto-regressive) 모델의 핵심적인 특성, 즉 이전 토큰의 정보가 이후의 토큰에 영향을 준다는 점에서 착안하였다. 따라서 스타일 안내형 프롬프트에서 스타일 정의 용어가 실제 텍스트가 나타나기 전에 주어지면, 특히 지시문 튜닝(instruct-tuned)된 모델에서 이후 텍스트의 잠재적인 언어적 패턴을 미리 모델에 알려주게 된다.

그림 4에서는 프롬프트 내에서 [TEXT] 부분의 토큰이 프롬프트의 앞부분(지시문, instruction)에 있는 토큰들과 어떻게 상호작용(attention)하는지를 보여준다.

[TEXT]의 각 토큰마다, 그림에서는 지시문의 어떤 토큰이 가장 높은 주의(attention)를 받는지 나타낸다.
스타일 안내형 프롬프트 구조에서는 스타일을 정의하는 용어가 다른 토큰들에 비해 더 많은 주의를 받는 것이 관찰된다.
즉, 모델은 실제 텍스트의 스타일을 정의하는 용어에 더 많은 관심을 두고 이후 텍스트를 해석하게 된다.

스타일 안내형인 경우, 스타일에 많은 attention이 가는 것을 볼 수가 있다라고 보여줌

근데 이건 데이터 하나의 경우고, 실제로 여러 데이터에서 다 뽑아서 통계적으로 말해주는게 좋을거 같은데?

4.5 관찰 결과(Observations)

그림 5는 모델의 각 레이어(layer)에 있는 헤드(head)들의 성능을 전체적으로 보여준다. 각 레이어에서 헤드들의 평균 성능은 굵은 선으로 표시되며, 그 주변의 음영(shaded region)은 성능의 범위를 나타낸다. 음영의 윗 경계선은 개별 헤드 중 가장 좋은 성능을 나타낸다. 그래프의 Y축 범위는 성능 차이를 명확히 나타내기 위해 80~100%로 조정되었다.

그림 5로부터 몇 가지 관찰을 얻을 수 있다.

첫째, [TEXT]의 마지막 토큰(final token)만을 문장 전체의 대표로 간주할 때 가장 좋은 성능이 나타났다.

이 결과는 마지막 토큰이 이전 모든 토큰들에 대한 정보를 종합하여 전체 문맥(global context)을 잘 담고 있다는 직관적인 해석과 일치한다.

둘째, 프롬프트에 스타일을 정의하는 용어(style-definitive term)를 사용하는 경우 최종 성능이 더 높을 뿐 아니라, 모델이 최적 성능에 더 빨리 도달하도록 유도한다.

셋째, 거의 완벽에 가까운 높은 성능은 모델의 활성화 공간이 원본 스타일(source style)과 목표 스타일(target style)을 구분하기 위한 특징을 효과적으로 인코딩하고 있음을 시사한다.

즉, 모델이 각 스타일에 대해 명확히 구분되는 스타일 특화된 부분공간(subspace)을 학습한 것이다.

넷째, 모든 모델에서 초기 몇 개의 레이어에서 빠르게 성능이 증가하여, 약 4번째 또는 5번째 레이어에서 최적의 성능(peak)에 도달하며, 이후에도 높은 성능이 지속적으로 유지된다(한 가지 예외가 있다).

서로 다른 집계(aggregation) 방식에서도 일관되게 높은 정확도(80% 이상)가 나타난다는 것은 활성화를 조합하는 방법에 상관없이 표현이 견고(robust)함을 나타낸다.

종합적으로 볼 때, 주어진 스타일 전환 작업은 해당 모델들에 큰 도전 과제가 되지 않았다. 그러나 우리는 단순히 성능 점수만으로 탐구를 제한하지 않고, 이후 분석을 추가로 수행하여 관찰 결과를 더욱 확실히 입증하고자 한다. 다음 섹션에서는 개별 헤드들이 높은 분리성(separability)에 얼마나 독특하게 기여하는지 살펴볼 것이다.

여기서 스타일분리 성능이란게 어떻게 측정되는거인지?

아마도 4.4의 프롬프트를 포함한게 모델의 입력이 되고
이 모델의 hidden state logit을 probe(선형모델)의 입력으로 보고, probe을 학습한거 같다.
probe의 역할은 스타일을 분리하는 역할이고, 즉 성능이 높다는 것은 hidden state가 스타일의 정보를 담고 있다고 볼 수 있다는 것

4.6 제거 실험(Ablation)

제거 실험(ablation)이란, 특정 레이어(layer)나 헤드(head)의 활성화(activation)를 제거하거나 0으로 대체함으로써, 그 결과로 나타나는 모델 출력의 변화를 관찰하여 특정 활성화 부분공간(activation subspace)의 기여도를 정량적으로 확인하는 방법이다. 본 연구에서는, 모델의 특정 레이어마다 무작위로 선택한 일정 비율( $n\%$ )의 헤드들을 제거(zero-ablation)하였다.

구체적으로는, 각 모델의 매 5번째 레이어(layer)에 위치한 헤드 중 무작위로 $n\%$ 를 선택하였다. $n$ 의 값은 각각 {10, 20, 30, 40, 50}의 비율로 설정하였으며, 제거가 이루어진 후, 별도의 프로브(probe)를 최종 레이어(final layer)의 활성화만으로 훈련시켜 각 제거 비율(ablation percentage)별 성능을 비교하였다. 최종 레이어를 기준으로 비교하는 이유는 스타일 분리 성능(separability)이 최종 레이어에서 정점에 도달하기 때문이다(이를 그림 5에서 확인할 수 있다).

전체 모델에서 제거(ablation)가 어느 정도 이루어졌는지 구체적인 예시로 설명하면, LLaMA와 Mistral 모델의 경우 6개 레이어(layer) × 각 레이어에서 $n\%$ 의 헤드가 제거되었다. 따라서 $n=10\%$ 일 경우, 총 1024개의 헤드 중 60개 헤드(6개 레이어 × 각 레이어별 헤드의 10%)가 제거된 것이다.

이 실험의 결과는 그림 10에서 확인할 수 있으며, 성능(정확도)의 하락이 극히 미미하다는 점을 보여준다. 이는 여러 헤드를 사실상 제거한 상황에서도 모델이 대부분 원본 스타일과 목표 스타일을 여전히 잘 구별하고 있음을 나타낸다. 그러나 성능 하락이 항상 일관적이지는 않으며, 가끔씩 아주 작은 성능의 증가가 관찰되기도 하는데, 이는 일부 헤드들이 다른 헤드들에 비해 상대적으로 더 많은 정보를 인코딩(encoding)하고 있을 가능성을 시사한다.

스티어링 생성(Steered Generations)
지금까지의 실험을 종합하면, 모델이 스타일에 대해 선형적(linear) 표현을 갖고 있으며, 스타일별 부분공간(style-specific subspace)이 거의 겹치지 않는다는 결론에 도달할 수 있다.

프로브가 선형모델이기 때문에 스타일 정보가 선형적으로 구분된다고 말하는 것인듯

이러한 관찰을 바탕으로, 우리는 스타일 간 활성화 차이를 이용하여 생성 과정을 원본 스타일에서 목표 스타일로 유도하는 스티어링 벡터(steering vector)를 계산하였다. 스티어링 강도(strength)는 $\lambda \in [0.5, 10]$ 까지 0.5 단위씩 조정하였다. 다음의 예시는 모델의 생성 결과가 이해할 수 있는 수준으로 유지되는 $\lambda$ 의 최대치를 보여준다. 특정 $\lambda$ 값 이상에서는 생성 결과가 이해할 수 없는 무의미한 텍스트(gibberish)로 바뀌었다.

프롬프트(Prompt):

"다음 텍스트를 격식체로 다시 작성하시오:
'She cant sing for her life!' (그녀는 노래를 정말 못해!)"

$\lambda=0.5$ 일 때의 응답:

"She demonstrates an inability to sing proficiently."
(그녀는 능숙하게 노래를 부르는 능력이 부족합니다.)

$\lambda=1.5$ 일 때의 응답:

"She lacks the ability to sing proficiently."
(그녀는 능숙하게 노래하는 능력이 없습니다.)

$\lambda=2.0$ 일 때의 응답:

"She is not endowed with the skill to produce musically pleasing vocal sounds."
(그녀는 음악적으로 듣기 좋은 발성을 할 수 있는 능력을 타고나지 않았습니다.)

$\lambda=2.5$ 일 때의 응답:

"I must regretfully inform you that she is, unfortunately, not endowed with the skill of vocal performance. Tro tro tro..."
(안타깝게도 그녀는 뛰어난 보컬 능력을 타고나지 않았음을 알려드립니다. Tro tro tro…)

$\lambda=3.0$ 일 때의 응답:

"I must kindly inform you that she lacks sufficient vocal skills."
(그녀는 충분한 보컬 능력이 없음을 정중히 알려드립니다.)

$\lambda=3.5$ 일 때의 응답:

"Tro Tro Tro Tro Tro" (의미 없는 문장으로 바뀜)

그러나 활성화 공간은 모델마다 동일하지 않기 때문에, 위의 임계치( $\lambda$ )는 모델마다 다르게 나타난다. LLaMA의 경우에는 임계치가 더 낮은 반면(약 3.0), Mistral은 비슷한 수준이며, Qwen 모델의 경우 더 높은 임계치를 보여준다. 이는 Qwen 모델의 스티어링 벡터가 상대적으로 약해 더 높은 수준의 스케일링(scaling)을 견딜 수 있음을 나타낸다.

5 Generation Z(젠지) 용어의 흥미로운 사례 (The curious case of GENZ lingo)

우리는 기존에 자주 다뤄졌던 형식/비형식(formal/informal) 혹은 셰익스피어/현대 영어(Shakespeare/modern English) 같은 일반적인 스타일 전환 작업(style-transfer tasks)의 범위를 넘어, 보다 특별한 언어 현상인 Generation Z(젠지)의 사회적 방언(sociolect) 을 탐구한다.

그렇다면 Generation Z(젠지)란 정확히 누구인가? Generation Zoomer(줌 세대) 또는 GEN Z 라고 불리는 이들은 현재 전 세계 인구의 약 32%를 차지하며(Bloomberg), 세상을 변화시키고자 하는 세대이다(New York Post). 오늘날 인터넷을 이용하는 젠지 인구의 90% 이상이 평균 하루 3시간 이상 인터넷을 사용하고 있으며, 젠지는 소셜 미디어 플랫폼에서 전방위적으로 높은 활동(super lit¹)을 보인다(Global Web Index; HootSuite). 미국의 젠지 소셜 미디어 사용자는 2027년까지 약 6580만 명에 이를 것으로 예상되며, 이후 더욱 중요한 소비자 집단이 될 것으로 전망된다(Emarketer).

Generation Z만의 고유한 용어가 있는가? 젠지 세대는 자신들만의 독특한 사회적 방언(sociolect) 을 발전시켜왔다(Wikipedia). 이 방언은 기존의 단어가 새로운 의미로 변형되거나(의미적 전환(semantic shift)) 완전히 새로운 단어가 만들어지는(신조어(neologism)) 언어적 현상이 특징이다. 예를 들어, “savage”는 기존의 전통적 의미(야만적인, 사나운)와는 다르게 "대담하고 당당한(unapologetically bold)"을 의미하게 되었고, "flex"는 "과시하다(showing off)"라는 의미로 완전히 새롭게 사용되고 있다.

이러한 현상은 Labov의 언어 변이 및 변화 이론(Labov’s sociolinguistic theory of language variation and change) (Chambers et al., 2004)에 의해 설명되며, 이는 사회적 정체성과 공동체 내에서의 유대 관계로 인해 발생하는 언어 진화의 연속적 과정으로 이해될 수 있다.

앞서 제시된 그림 2는 젠지 언어가 기존의 통상적인 언어에서 얼마나 벗어날 수 있는지를 보여주는 사례이다. 이러한 젠지 특유의 용어에 익숙하지 않은 사람들은 문맥을 해석하는 데 어려움을 겪을 수 있다. 젠지 언어를 다루는 전용 데이터셋이 존재하지 않는 상황, 특히 젠지 특유의 언어적 특징으로 인해 가려진 유해성(toxicity)에 초점을 둔 데이터셋은 더욱 희소한 상황에서, 본 연구는 기존 데이터셋을 스타일 전환을 통해 젠지 용어로 변환하여 새로운 데이터셋을 구축하고자 한다.

여기서 우리는 다시 본 논문의 핵심 질문으로 돌아간다.

"LLM은 유능한 스타일 전환 도구로서 특정한 언어적 패러다임(paradigm) 내에서 새로운 데이터셋을 구축하는 데 도움을 줄 수 있는가?"

다음 절에서는 이 데이터셋 구축 과정에 대해 간략히 설명한다. 보다 자세한 내용은 논문의 부록(appendix) B를 참조하라.

5.1 데이터셋(Dataset)

우리는 기존의 데이터셋(anchor dataset)인 Gab Hate Corpus(Kennedy et al., 2022) 를 젠지 특유의 유해성(toxicity) 데이터셋으로 스타일 전환하였다. Gab Hate Corpus는 다음과 같은 세 가지 라벨을 기준으로 유해성을 정의한다.

인간 존엄성에 대한 공격(Assault on Human Dignity)
폭력 선동(Call for Violence)
저속하거나 공격적인 표현(Vulgar and/or Offensive)

이 세 가지 라벨 중 하나라도 참(true)인 경우 유해성(toxic)으로 판단하고, 나머지는 비유해성(non-toxic)으로 판단하였다. 데이터셋 구축 과정 중 여러 단계에서 11명의 젠지 소셜 미디어 사용자를 **검증자(verifier)**로 참여시켜 인간의 개입(human intervention)을 추가하였다. 이들이 기존 데이터셋을 검토한 결과 총 2789개의 텍스트가 명확히 이해 가능한 것으로 판단되어, 이를 젠지 스타일로 전환하였다. 전환에는 LLaMA 3.1 8B Instruct(Grattafiori et al., 2024) 및 Mixtral 8X7B(Jiang et al., 2024) 모델을 사용하였다.

젠지스타일로 변환하라는 프롬프트는 어떻게 구성되어있을까?

스타일이 변환된 텍스트는 의미적 일관성(semantic consistency)을 보장하기 위해 검증자들에 의해 철저하게 리뷰되었으며, 검증된 텍스트 중 유해성(toxic)과 비유해성(non-toxic) 각 1000개씩을 최종적으로 실험에 사용하였다. 이러한 실험의 목적은 전통적이지 않은 새로운 스타일 전환 작업을 탐구하는 데 있다. 이에 관한 추가 정보는 논문의 부록 B를 참조하라.

5.2 실험(Experiments)

이전에 수행했던 프로빙(probing) 실험을 앞서 구축한 데이터셋(GEN Z 스타일의 유해성 텍스트)에 대해 동일한 실험 설정으로 반복하였다.

5.3 관찰 결과(Observations)

프로빙(Probing)
이전 데이터셋과 마찬가지로 각 레이어(layer)의 모든 헤드(head)에 대해 프로빙 실험을 수행하였다. 그림 7은 각 레이어에 속한 헤드들의 성능을 전체적으로 나타낸다. 이 데이터셋에서도 이전 두 데이터셋(Shakespeare, GYAFC)에서 얻었던 관찰 결과와 유사한 현상이 발견되었다. 여러 가지 집계(aggregation) 방법(최소 풀링, 최대 풀링, 평균 풀링 등)을 적용했을 때도 높은 성능이 나타났지만, [TEXT]의 마지막 토큰(final token)만을 대표값으로 사용했을 때 가장 빠르게 최적 성능으로 수렴하면서 전반적으로 거의 완벽에 가까운 정확도를 보였다.

즉, 결과적으로 각 모델은 스타일별로 특화된 하위 공간(subspace)을 명확히 가지고 있을 뿐 아니라, 이 스타일별 공간들이 서로 명확히 분리되며 거의 겹치지 않는 형태로 존재하고 있음을 나타낸다.

제거 실험(Ablation)
이전 데이터셋과 마찬가지로, 각 5번째 레이어(layer)에 위치한 헤드(head)의 일부를 제거(zero-ablation)함으로써 이들의 스타일 표현 기여도를 확인하였다.
그림에서 나타나듯이, 제거된 헤드로 인해 성능이 감소하는 정도는 무시할 수 있을 정도로 작았다.
다만, 집계 방법에 따라 약간의 차이는 존재하는데, 평균(mean)을 사용하여 집계한 경우 성능 하락이 다소 크게 나타났으나, 마지막 토큰(final token)을 사용하는 경우 성능 저하는 거의 나타나지 않았다.

5.4 스티어링 생성(Steered Generations)

다음은 스티어링 벡터(steering vector)를 이용하여 Generation Z(젠지) 스타일로 문장을 변환한 생성 예시이며, 생성 시 사용한 스티어링 강도(strength)는 λ이며, λ는 0.5에서 10.0까지 0.5 단위로 조정하였다.

프롬프트(prompt):

"다음 텍스트를 Generation Z(젠지) 스타일로 다시 작성하시오:
'you disgust me!' (넌 역겨워!)"

λ = 0.5일 때의 응답:

"Yo, seriously? You're vibing on a whole other level of cringe right now!"
(야, 진심이야? 너 지금 완전 다른 차원의 오글거림을 뿜고 있어!)
λ = 1.0일 때의 응답:
(논문 원문에 비어있어 제공되지 않음.)
이거 왜 비어있냐??
λ = 2.5일 때의 응답:

"Really, you are a vibes-vamping, vibes-vibes-vibes? aliaaliaalia..."
(진짜, 넌 완전 분위기 흡혈귀(vibes-vamping), 분위기-분위기-분위기? 알리아알리아알리아…)

λ = 2.5 이상의 값부터는 모델이 의미 없는 텍스트(gibberish)를 생성하기 시작했다.

즉, 스티어링 강도가 특정 임계치 이상을 넘으면 생성되는 텍스트가 이해할 수 없게 변형되기 시작했음을 보여준다. 이는 스티어링 벡터의 크기가 과도하게 커졌을 때 발생하는 현상으로, 적절한 강도를 유지하는 것이 중요함을 시사한다.

프로브 학습시 train/valid에 대한 정보는?

6 논의 및 결론(Discussion and Conclusion)

우리의 관찰 결과는 대규모 언어 모델(LLM)이 이미 익숙한 스타일(familiar styles)에 대해서는 매우 효과적인 스타일 전환 도구(style-transfer tool)임을 나타낸다. 다시 말해, 모델에게 있어 한 스타일에서 다른 스타일로의 전환은 상당히 쉬운 작업임이 드러났다. 그러나 항상 그런 것은 아니다. 본 연구에서는 추가로 Generation Z(젠지)의 사회적 방언(sociolect)이라는 다소 독특한 스타일을 탐구하였고, 이 경우에도 유사한 결과를 확인하였다. 그러나 모델 자체의 스타일에 대한 이해가 불충분하여, 프롬프팅(prompting)만으로 생성된 결과를 검증하는 데 광범위한 인간의 개입(human intervention)이 요구되는 경우도 있다. 예를 들어, 특정 인구집단의 독특한 언어적 뉘앙스(demography-induced linguistic nuances)에 모델이 친숙하지 않아, 이미 익숙한 스타일에서 완전히 낯선 스타일로의 전환이 어려운 경우가 있다. 이러한 경우에는 단순한 프롬프팅 방식(Brown et al., 2020; Wei et al., 2022)이 효과적이지 않을 수 있다.

이러한 문제에 대한 해결책으로, 기존에 익숙한 스타일과 낯선 스타일을 병렬(parallel)로 표현한 데이터셋을 이용하여, 모델이 스타일 차이를 명확히 이해하도록 학습시킬 수 있다. 이후 추론 시점(inference time)에서 스티어링 벡터(steering vector)를 사용해 모델을 낯선 스타일(unseen style)로 유도하여 보다 신뢰할 수 있는 스타일 전환 결과를 얻을 수 있다.

본 논문에서 사용한 실험 설계와 분석 방법은 선택된 모델에 대한 깊은 이해를 제공하고, 특정 모델이 해당 스타일 전환 작업에 적합한지 결정하는 데 유용하게 활용될 수 있다. 그러나 항상 주의를 기울이는 것이 바람직하다.

한계점(Limitations)

적당한 규모의 대규모 언어 모델(moderate-sized LLMs)이 데이터가 부족한 상황에서 스타일 전환 도구로서 높은 성능을 보임에도 불구하고, 생성된 텍스트는 철저한 인간의 검토(human intervention)를 필요로 한다. 스타일 전환을 거친 텍스트는 실제 사용자들이 직접 생성한 댓글(comment)의 자연스러운 느낌을 완벽히 담아내지 못할 수도 있다. 따라서 인간과 LLM의 결과를 융합한 형태(human-LLM fusion)가 실제 상황에서는 더욱 효과적일 수 있다.

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-284, 2506 ARR Review4