◼ Comment

이전의 Findings와 위배되는 느낌이긴한데..? 아예 독성 데이터를 없애는것보다 조금은 섞어주는게 독성 개념을 알게해서 결국에 모델이 안전해지게 할 수 있다는거 같은데
사람으로치면, 마치 순수한 사람이 아무것도 모르게 이상한 행동을 하게 냅두는 것보다, 뭐가 잘못된것인지를 인지시키고 못하게 하는 방향이 맞다고 보는거 같음
그림 3 보면 사전 실험을 하는데, 독성 데이터를 pretraining 데이터에 얼마냐 넣냐에 따라 prob 을 통해 특징 벡터가 얼마나 entanglemnet하는지를 봄

독성 데이터를 너무 조금 넣으면, 다른 특징들과 섞이기 때문에 발라내기 어렵다
즉 이것은 사후에 독성 컨트롤하기 어렵게 만들것이다 (가정)

그래서 실제로 C4(클린), 4chan(독성) 두 데이터를 혼합해가면서, 4chan을 얼마나 넣을지에 따라 모델이 어떻게 변화하는지 관측하는데

그림 6이 이것을 단번에 보여주는 그림인데
아에 0% 넣는 것보다 10$ 넣어주는게, 추후 독성 컨트롤이 더 잘된다
독성 컨트롤이란 ITI 같은 방법론을 통해 독성이 안나오도록 하면, 10% 넣어줬던 모델이 실제로 독성 응답을 덜 생성한다는 것이다
여기서는 10%가 최적이지만, 실제로는 모델이나 데이터에 따라 다른 비율일 가능성이 높음

1b olmo 데이터로 세팅한 실험이라 scaling은 모르긴함

Abstract

대형 언어 모델(LLM)의 사전 학습(pretraining)에서는 일반적으로 데이터의 질이 모델의 질을 결정한다고 믿는다. 본 논문에서는 사전 학습과 후처리(post-training)의 공동 설계 관점에서 데이터의 "질"이라는 개념을 재검토한다. 구체적으로, 독성이 높은(toxic) 데이터로 사전 학습을 하는 것이 오히려 후처리 과정에서 더 좋은 제어(control)를 가능하게 하여, 결과적으로 모델의 독성 출력을 감소시킬 수 있음을 탐구한다.

먼저, 간단한 실험을 통해 데이터 구성이 표현 공간에서 특징(feature)의 기하학적 구조에 어떤 영향을 미치는지 연구한다. 그 후, 깨끗한 데이터와 독성 데이터를 다양한 비율로 섞어 훈련된 Olmo-1B 모델을 이용한 통제된 실험을 통해, 독성 데이터 비율이 증가할수록 독성이라는 개념이 더 명확하고 선형적으로 표현됨을 발견한다. 또한, 독성 데이터가 기본 모델의 생성 독성(generational toxicity)을 증가시키지만, 역설적으로 이러한 독성을 제거하기가 더 쉬워진다는 점을 보인다.

Toxigen 및 Real Toxicity Prompts 데이터셋에서 평가를 수행한 결과, 독성 데이터로 훈련된 모델들이 추론 시간 개입(ITI, inference-time intervention)과 같은 독성 완화 기술을 적용할 때 생성 독성을 줄이면서도 일반적인 능력을 유지하는 데 있어 더 나은 균형을 달성함을 입증한다. 결론적으로, 후처리 과정을 고려하면 나쁜 데이터가 오히려 좋은 모델을 만들 수 있음을 시사한다.

1. Introduction

대형 언어 모델(LLM)을 사전 학습(pretraining)할 때, 일반적으로는 유해한 콘텐츠 생성을 막기 위해 학습 데이터에서 독성(toxic) 데이터를 제거하는 것이 관행이다(Raffel 외, 2020; Rae 외, 2021; Hoffmann 외, 2022; Thoppilan 외, 2022; Arnett 외, 2024).

여기서 말하는 관련 연구보니까 그냥 LLM에 관련된거가 많긴 하고
Toxicity of the Commons: Curating Open-Source Pre-Training Data 이거는 한번 볼만할듯

신경망은 본질적으로 훈련 데이터의 분포를 반영하기 때문에, 독성 데이터의 제거가 직관적으로 합리적인 방법으로 보일 수 있다. 그러나 데이터가 독성이라 하더라도, 이를 제거하면 데이터의 다양성을 감소시키고, 모델이 세상에 대한 완전한 표현(representation)을 구축하는 데 방해가 될 수 있다. 실제로 Longpre 외(2023)의 연구에서, 사전 학습 데이터의 독성 필터링이 모델의 독성 식별 능력뿐만 아니라 대부분의 질의응답(QA) 과제에서의 성능까지 떨어뜨린다는 것이 밝혀졌다.

근데 이거는 보니까 약간 연구마다 말하는게 다른거 같음

기존의 사전 학습된 모델(base model)만을 고려하면, 실무자들은 독성 데이터를 얼마나 유지할지 결정하는 데 있어 딜레마에 빠진다. 즉, 독성 데이터를 너무 많이 유지하면 모델이 독성 내용을 생성하게 되고, 너무 적게 유지하면 모델의 능력(capability)이 제한되기 때문이다.

약간 적당히 넣어야만 하는 느낌? 후처리로 독성 제거는 하자

그러나 최근 들어 사전 학습 이후의 후처리(post-training)가 널리 사용됨에 따라, 사전 학습된 모델을 추가 처리 없이 직접 사용하는 경우가 점점 줄고 있다. 본 연구는 Longpre 외(2023)의 연구를 확장하여 사전 학습과 후처리 과정을 통합된 하나의 시스템으로 간주하고 연구한다. 즉, 사전 학습된 모델의 행동 자체보다는, 프롬프팅(prompting)이나 활성화 조정(activation steering)과 같은 후처리 기법을 적용한 후의 맞춤형(customized) 행동에 집중한다.

이 맥락에서, 우리는 사전 학습 데이터에서 독성 데이터의 비율이 높아질수록 기본 모델의 정렬성(alignability)이 향상될 수 있다는 가설을 세운다(이러한 경향성은 본 논문의 실험을 통해 일정 임계치까지 확인되었다).

핵심 가설

본 연구의 주요 동기는 Lee 외(2024)와 Qi 외(2023)의 연구에서 얻었다.

이들의 연구에 따르면, 정렬(alignment) 알고리즘은 독성을 생성하는 메커니즘 자체를 학습 해제(unlearn)하지 않고, 단지 그러한 메커니즘을 우회(bypass)할 뿐이며, 의도적이든 아니든 이 메커니즘이 쉽게 다시 활성화될 수 있다고 보고하고 있다.
후처리로 완전히 독성 제거는 어렵다는 것.
그렇다고 처음부터 독성 필터링을 해버리면 일반 모델 성능(능력)이 떨어질 수도 있고해서
적당히 넣어서 모델의 정렬성을 향상시키자.
후처리 과정에서 독성에 대한 지식을 완전히 제거하는 것이 어렵다면, 오히려 처음부터 독성에 대한 이해를 강화하여 모델이 독성 콘텐츠를 생성할 때 더 명확한 자각(self-awareness)을 가지게 하는 것이 낫지 않을까 하는 것이다.
실제로 독성 표현은 종종 의도적이라기보다는 말하는 사람이 어떤 표현이 독성으로 간주될 수 있는지를 충분히 인지하지 못해서 발생하기도 한다.

이 문제를 탐구하기 위한 첫 단계로, 특정 특징(feature)의 데이터가 학습 데이터에 얼마나 존재하는지와 해당 특징이 다른 특징과 얽혀있는 정도(entanglement)의 관계를 연구하는 간단한 환경(toy setting)을 만든다. 이를 위해 우리는 Elhage 외(2022)가 제안한 초위치 가설(superposition hypothesis)을 바탕으로 한다. 이 가설은 트랜스포머(transformer) 모델의 숨겨진 공간(hidden space)에 특징이 뉴런보다 많을 때 어떻게 여러 특징이 중첩(superposed)되는지 이론화한 것이다. 우리의 실험에서는 특정 특징과 관련된 데이터가 많아질수록, 숨겨진 공간에서 해당 특징의 표현이 덜 얽히는(less entangled) 경향을 관찰한다.

2. 동기 부여 실험 (Motivating Experiment)

이 섹션에서는, 특정 유형의 데이터가 학습 세트에 존재하지 않을 때 모델이 특징(feature)의 표현(representation)을 형성하는 데 어떤 영향을 받는지를 더욱 잘 이해하고자 한다. 이를 위해, 우리는 Elhage 외(2022)가 제안한 초위치(superposition) 가설의 이론적 배경을 바탕으로 논의를 진행한다.

이 초위치 가설에 따르면, 특징의 수가 뉴런의 수를 초과할 경우, 신경망은 서로 관련 없는 다수의 특징 표현을 활성화 공간(activation space)의 한 차원에 중첩(superpose)하여 표현해야 한다. 이러한 배경을 바탕으로 우리는 각 특징(feature)이 다른 특징들과 얼마나 얽혀 있는지(entanglement)를 정의하고, 데이터에서 점차 누락된 특정 데이터의 유형을 다시 도입할 때 이러한 얽힘이 얼마나 줄어들 수 있는지를 조사하고자 한다. 본 실험의 계획은 그림 1에서 시각적으로 표현되어 있다.

2.1. 특징들의 얽힘 (Entanglement of Features)

이전 연구들(Mikolov 외, 2013; Arora 외, 2018; Park 외, 2023b)에 따르면, 신경망이 특정 특징(features)을 활성화 공간(activation space)의 특정한 선형 방향(linear directions)을 따라 표현(encode)할 수 있다고 알려져 있다. 그러나 신경망이 자신이 가진 표현 공간(representation space)보다 더 높은 차원의 특징 공간(feature space)을 나타내야 하는 상황에서는 여러 특징의 표현을 하나의 방향에 중첩(superpose)시키는 일이 발생하며, 이를 초위치(superposition) 현상이라고 한다(Elhage 외, 2022). 초위치는 하나의 뉴런이 여러 개의 서로 무관한 개념을 동시에 표현하는 대형 언어 모델에서 흔히 관찰된다(Cunningham 외, 2023; Lim과 Lauw, 2023).

초위치=Superposition

초위치는 각 뉴런 방향이 더 이상 하나의 이해 가능한 특징만을 나타내지 않기 때문에, 네트워크의 행동을 해석(interpret)하는 데 큰 어려움을 초래한다. 또한, 초위치는 활성화(activation)를 편집(edit)하는 작업도 복잡하게 만든다(Li 외, 2023; Turner 외, 2023). 초위치가 발생하면, 각 특징들이 본질적으로 독립적이라 하더라도 그 특징들의 인코딩 방향이 서로 상관관계가 있게 된다. 따라서 하나의 특징을 수정하는 것이 다른 특징에도 원치 않는 영향을 미치게 되는데, 이는 하나의 방향을 수정하면 항상 다른 특징의 방향에도 영향을 미치는(non-zero projection) 결과를 가져오기 때문이다.

초위치 현상을 개별 특징에 대해 더 세부적으로 이해하려면 어떻게 해야 할까? 우리는 각 특징이 얼마나 명확하게 드러나는지를 평가하는 새로운 측정법을 정의하고자 한다. 각 특징 ( $P_i$ ) 에 대한 얽힘(entanglement) 측정법을 다음과 같이 정의한다:

여기서 ( $v_{P_i}$ ) 는 특징 ( $P_i$ ) 의 방향을 나타내는 단위 벡터(unit vector)이다.

즉 두 특징 벡터가 유사하다고 판단되면 얽혀 있다는 것. 이를 entanglment되어 있다라고 표현

그림 2는 이러한 얽힘 측정법의 개념을 간단하게 도식화한 것이다. 왼쪽 패널에서는 특징의 수가 공간의 차원 수보다 많음에도 불구하고 각 특징 벡터가 가능한 한 균일하게 분포하여 모든 특징이 비슷한 정도로 얽힌 상태를 보여준다. 반면 오른쪽 패널에서는 녹색 특징이 다른 특징보다 훨씬 덜 얽혀 있어 얽힘 측정값이 더 작다. 그러나 이로 인해 다른 두 특징(빨간색과 파란색)의 얽힘이 높아진다. 이상적으로는 특징의 표현이 가능한 한 적게 얽혀야 각 특징의 존재를 정확히 탐지하고 편집할 수 있다.

비고 1 (Remark 1)
두 특징 벡터의 코사인 유사도(cosine similarity)가 -1에 가까운 경우, 이들이 서로 얽히지 않은(disentangled) 상태를 의미하는 것이 아니라 오히려 매우 강력하게 얽힌 상태를 의미할 수 있다. 예를 들어, 한 특징의 반의어(antonym) 특징을 정의하면 그 코사인 유사도는 +1에 가까워진다. 이러한 점을 고려하여 우리는 얽힘 측정값을 코사인 유사도의 절대값(absolute value)으로 정의한다.

비고 2 (Remark 2)
특징 방향(feature directions) ( $v_{P_i}$ ) 을 정의하는 방법은 여러 가지가 있다. 한 가지 방법은 특정 특징과 다른 특징들을 가장 잘 구분할 수 있는 초평면(hyperplane)의 법선 벡터(normal vector)를 사용하는 것으로, 이는 특징을 분류하기 위한 탐침(probe)을 훈련할 때 얻어지는 가중치(probe weight)와 동일하다. 또 다른 방법은 특징 표현들의 평균점을 계산하여 방향을 얻는 것이다. 본 실험에서는 첫 번째 방법을 사용하되 약간 변형한다. 우리는 특징과 마지막 토큰(token)의 조합으로 탐침(probe)을 훈련시키고, 어휘 집합(vocabulary)의 평균으로 특징 방향을 정의한다.

수식 1에서 특징 벡터를 어떻게 정의할 것인가? 아래 참고

📌 Remark 2의 핵심 아이디어

탐침(probe) 이라는 간단한 분류기를 훈련시켜 얻은 최적의 결정 경계면을 사용해 특정 특징(feature) 의 방향을 정의한다는 의미입니다.

즉, 모델의 숨겨진 표현(hidden representation)을 가지고 분류기를 학습하여, 이 분류기의 가중치(weight)를 통해 특정 특징의 방향을 얻겠다는 뜻입니다.

📍 구체적인 절차

탐침 기반 특징 방향 설정 과정은 다음과 같은 단계로 구성됩니다:

① 데이터를 준비합니다.

모델의 내부 표현을 분석하기 위해 훈련된 모델에 여러 입력(문장 또는 텍스트)을 넣고, 그때 모델 안에서 생성된 숨겨진 표현(hidden activations)을 기록합니다.

예시: 여러 문장들을 모델에 입력하여, 각 문장의 **"마지막 토큰"**에서 발생한 숨겨진 표현을 수집합니다.

문장(입력)	특징(라벨)	숨겨진 표현
문장1	독성	(x_1)
문장2	비독성	(x_2)
문장3	독성	(x_3)
문장4	비독성	(x_4)

(위의 ($x_i$)는 벡터 표현입니다.)

② 분류기(탐침)를 훈련합니다.

위에서 수집한 숨겨진 표현 벡터를 이용하여 간단한 이진 분류기(binary classifier) 를 학습합니다.

분류기는 특정 특징(예: 독성)이 있는 데이터와 없는 데이터를 잘 구분할 수 있도록 훈련됩니다.

예시로는 가장 간단한 선형 분류기(linear classifier)를 사용할 수 있습니다:

$[
y = w \cdot x + b
]$

(x): 숨겨진 표현 벡터
(y): 독성인지 여부를 나타내는 예측값
(w): 가중치 벡터(weight vector), (b): 편향(bias)

이 분류기는 독성 여부를 잘 구별하도록 훈련됩니다.

③ 훈련된 탐침의 결정 경계를 이용하여 특징 방향을 정의합니다.

이렇게 학습된 분류기는 데이터를 두 가지로 분리하는 초평면(hyperplane)을 결정합니다.

초평면의 법선 벡터(normal vector)가 바로 "독성 특징 방향(feature direction)" 으로 사용됩니다.
간단히 말하면, 이 방향은 "모델이 독성이라는 특징을 판단할 때 가장 중요하게 사용하는 방향"입니다.

구체적으로 이 탐침(probe)의 가중치 벡터 (w) 가 바로 독성 특징을 나타내는 방향 (v_{P_i}) 이 됩니다.

$[
v_{P_i} = \frac{w}{|w|}
]$

즉, 분류기가 만들어낸 경계선의 수직 방향이 바로 모델이 독성 개념을 표현한 방향이라고 정의됩니다.

✅ 실제 의미 예시

쉽게 예를 들어보면:

만약 모델이 "이 문장은 독성이 있다"와 "이 문장은 독성이 없다"를 잘 구별하는 표현을 만들었다면, 이 두 그룹을 깨끗하게 구분하는 직선을 그을 수 있겠죠?
이때 이 직선에 수직인 방향이 바로 독성을 구분하는 데 핵심이 되는 방향이며, 이를 모델이 학습한 **독성 특징 방향(feature direction)**으로 삼겠다는 것입니다.

이 방향이 얼마나 명확하게 정의되어 있는지에 따라 모델이 해당 특징을 얼마나 잘 학습했는지 평가할 수 있습니다.

📝 왜 탐침(probe)을 사용하나요?

탐침은 간단한 분류기로서, 모델이 학습한 복잡한 숨겨진 표현에서 특정 특징(독성 등)의 존재 여부를 명확하게 측정하고 표현하기 위한 도구입니다.

복잡한 내부 구조를 가진 대형 언어 모델을 직접 해석하는 것은 매우 어렵습니다.
그러나 간단한 분류기(탐침)를 훈련시키고, 그 분류기가 학습한 방향을 분석하면, 모델 내부에서 특정 개념을 표현하는 방향을 명확히 파악할 수 있게 됩니다.

🎯 논문의 실험에서의 활용

논문의 실험에서 연구자들은 바로 이 과정을 거쳐 다음과 같은 사실을 확인했습니다:

데이터가 부족하면 이 탐침이 찾는 특징 방향이 다른 특징과 비슷한 방향으로 나타나서 얽힘(entanglement)이 커집니다.
데이터가 많으면 이 방향이 명확하고 독립적이 되므로 얽힘이 작아집니다.

즉, 탐침을 사용해 특정 특징(독성)의 표현이 얼마나 명확한지를 실제로 측정했고, 그 결과가 데이터 양과 관련이 있다는 것을 보여줬습니다.

🧑‍🔬 요약: 탐침을 이용한 특징 방향 정의 과정

데이터를 넣어 숨겨진 표현(activations)을 얻는다.
그 숨겨진 표현을 바탕으로 특정 특징을 잘 구분하는 분류기(탐침)를 훈련한다.
훈련된 분류기의 가중치 벡터를 이용해 특징 방향을 정한다.

이 과정으로 특징이 얼마나 명확하게 표현되었는지를 수치적으로 평가할 수 있습니다.

비고 3 (Remark 3)
표현 공간이 M차원이고, 모델이 N개의 고유한(unique) 특징 방향을 학습할 때, 만약 ( N > M ) 이라면 (이는 실제 트랜스포머 모델에서는 거의 항상 성립함(Elhage 외, 2022)), N개 특징들의 최대 얽힘은 Welch 바운드(Welch bound; Welch, 2003)를 이용하여 다음과 같이 계산할 수 있다:

여기서 등호(최소 얽힘의 최대값)는 벡터들이 표현 공간에서 균일하게 퍼져 있을 때만 성립한다. 따라서 평균적인 특징 얽힘(entanglement)의 하한은 ($\sqrt{\frac{N-M}{(N-1)M}}$)로 주어진다. 다만, 실제 환경에서는 이 실험과 같이 통제된 설정이 아니면 N을 정확히 추정하기 어렵다는 점에 유의하라.

2.2. 간단한 실험 환경의 설정 (Toy Experiment Setup)

특징(feature)의 정의

사전 학습(pretraining)에서 다양한 데이터 구성이 가지는 영향을 모의(simulate)하기 위해, 훈련용 데이터셋을 상태 크기(state size)가 V인 N개의 순환 마르코프 체인(cyclic Markov chains) 에서 생성된 시퀀스(sequences)의 혼합물로 구성하였다. 각 마르코프 체인은 고유한(unique) V개의 시퀀스를 포함하며, 이 시퀀스가 학습 데이터셋에서 가장 작은 단위가 된다. 따라서 여기서 각 "특징(feature)"은 하나의 고유 시퀀스(unique sequence) 로 정의된다.

데이터 구성의 변화에 따른 학습

우리의 핵심 연구 질문은 훈련 데이터 내 특정 특징의 빈도(frequency)와 훈련된 모델의 표현 공간에서 이 특징이 얼마나 얽혀 있는지(entangled)의 관계를 연구하는 것이다. 데이터 구성 비율의 변화를 구현하기 위해, 각 마르코프 체인이 생성하는 데이터의 양을 변화시켰다. 그런 다음, 마르코프 체인에서 나온 시퀀스 데이터를 불균등하게 샘플링하여 여러 데이터셋을 만들고 이 데이터셋을 이용해 간단한 토이 트랜스포머 모델(toy transformer models)을 훈련했다. 이때 특정 마르코프 체인은 다른 특징에 비해 상대적으로 적게 샘플링된 데이터만을 제공하며, 이 체인의 고유 시퀀스는 "저대표된 특징(underrepresented features)" 이라 부른다.

실험 세부 사항

우리의 토이 모델은 4차원 잔차 스트림(residual stream)을 가진 4층(layer)의 트랜스포머(transformer)이다. 여기서 잔차 스트림의 차원 수는 마르코프 체인의 개수(3개)와 어휘 집합의 크기(4개)를 곱한 수보다 작다. 각각의 데이터셋에서, 우리는 이 간단한 토이 모델을 서로 다른 랜덤 시드(random seed)를 이용하여 총 10번씩 훈련했다. 모델이 간단하기 때문에, 이 토이 실험에서는 얽힘(entanglement)을 측정할 때 잔차 스트림 표현(residual stream representation)에만 초점을 맞춘다. 그러나 우리가 정의한 얽힘 측정 방법은 신경망의 어떤 표현 공간에도 적용할 수 있다. 우리의 경우, 비고 3의 식에서 (M=4), (N=12)를 대입하면 최소 평균 얽힘은 약 0.43임을 계산할 수 있다.

2.3. 실험 결과

그림 3에서는 훈련 데이터에서 특정 마르코프 체인의 데이터 비율이 변화함에 따라, 해당 체인의 저대표된 특징(underrepresented features)의 얽힘(entanglement) 측정값이 어떻게 변화하는지 보여준다. 기준점(baseline)으로, 다른 특징들의 평균 얽힘도(control group)도 함께 계산하여 나타냈다. 그림을 보면, 4차원 잔차 스트림(residual stream)에 특징을 압축할 때 나타나는 일반적인 특징 얽힘 정도는 약 0.8 수준이다. 그러나 저대표된 특징의 데이터가 점차 증가할수록 해당 특징의 얽힘이 점진적으로 감소하며, 다른 특징들의 평균 얽힘 값에 가까워지는 것을 볼 수 있다.

즉 데이터가 부족한 특징은 파란색이고, 나머지 특징 데이터는 주황색인데, 파란색이 항상 높게나옴. 우하향 하는 그림을 보여주는걸보면, 얽힘에서 데이터가 얼마나 들어가는지 중요하다는 것

이 결과가 실제 언어 모델에서 독성(toxicity)을 줄이고자 하는 목표와 어떤 관련이 있을까? 만약 독성(toxicity)이라는 개념에 초점을 맞추어 생각해 본다면, 깨끗하게 필터링된 훈련 데이터셋(예: C4)은 매우 제한된 양의 독성 데이터를 포함하게 된다. 이런 상황에서는 독성에 대한 표현(representation)이 다른 빈번하고 무관한 개념들의 표현과 중첩(superposed)되어 있을 가능성이 있다. 결과적으로 독성 방향(toxicity direction)을 공격적으로 수정하면 모델의 일반적인 성능(general capabilities)이 크게 저하될 수 있다.

이 간단한 실험의 결과는 우리에게 오히려 그 반대로, 사전 훈련 데이터셋에 독성 데이터를 적극적으로 추가해보라는 동기(motivation)를 제공한다.

데이터를 너무 안넣으면 얽힘이 심하게 된다.
근데 아예 안넣는것에 대한 동기는 사실 아니긴 한데.. 조금 넣을바에 좀 더 많이 넣는게 낫다는 거지

실험 결과, 특정 개념(특징)의 데이터가 충분히 제공되지 않으면, 모델은 그 개념을 다른 개념과 더 많이 얽힌 상태로 표현했습니다. 반대로, 그 개념과 관련된 데이터가 많아지면 모델이 그 개념을 독립적으로 명확히 표현했습니다.

쉽게 말해,

데이터가 부족하면 특징이 서로 얽혀서 정확한 구분이 어렵다.
데이터가 많아질수록 특징들이 분리되어 정확히 구분하기 쉬워진다.

이를 독성(toxicity)에 적용하면, 너무 독성 데이터를 없애면 모델이 독성 개념을 제대로 배우지 못해 오히려 후처리에서 독성을 제어하는 것이 어렵다는 것을 뜻합니다. 따라서 이 논문에서는 모델을 훈련할 때 독성 데이터를 일부러 추가하여 독성 개념을 명확히 학습하도록 하는 접근을 제안합니다.

3. Pretraining with Toxic Data

영리한 독자들은 이미 눈치챘겠지만, 앞서 수행한 동기 부여 실험에서 사용한 '과소대표된 특징(under-represented feature)'은 바로 이 연구에서 주요 관심사인 '독성(toxicity)' 개념에 대응한다.

실제 상황에서의 대규모 언어 모델을 보다 잘 모사하기 위해, 데이터 정제부터 평가까지 완전히 개방된 언어 모델인 Olmo-1B(Groeneveld 등, 2024)를 사용한다. Olmo-1B 모델은 24개의 층(layer), 각 층당 16개의 어텐션 헤드(attention head), 그리고 1024 크기의 숨겨진 차원(hidden size)을 갖는다.

여기서 필요한 것은 사전학습 데이터셋에 추가되는 독성 데이터의 비율이 서로 다른 다양한 모델의 스펙트럼을 만드는 것이다. 정확한 통제를 위해 완전히 깨끗한 데이터셋(C4; Raffel 등, 2020)과 완전히 독성으로 가득한 데이터셋(4chan; Papasavva 등, 2020)을 선정했다.

C4는 웹에서 수집된 텍스트를 정제 및 필터링한 데이터셋으로서, 품질이 낮거나 독성 있는 콘텐츠를 거의 완벽하게 제거한 순수한 비독성 데이터셋이다.
반면 4chan은 익명 온라인 포럼으로, 제한 없는 논의와 공격적인 콘텐츠로 잘 알려져 있어 거의 완벽한 독성 데이터셋으로 간주될 수 있다.
이러한 실험을 하려면 C4와 4chan 사용을 고려해볼만하겠군

깨끗한 데이터의 양을 일정하게 유지하면서 독성 데이터의 비율을 0%에서 25%까지 5%씩 점진적으로 증가시켰다. 전체 토큰(token) 수는 201억에서 257억 개 사이로 변동했다. 각 훈련 과정은 Nvidia H100 GPU 16개를 사용하여 12시간 이내에 완료하였다. 무작위성을 최소화하기 위해 각각의 데이터 설정으로 두 번씩 훈련을 수행하였다.

사전학습 데이터에서 독성 데이터 비율을 25%까지 높인다는 것은 실제로 과장된 것이며 추천할 만한 비율은 아니다. 다만, 실제로 최적의 지점을 발견하기 위해 의도적으로 높은 비율을 선택한 것이다.

모델 사전학습에서 독성 데이터의 영향을 조사하기 위해, 일반 능력 평가는 MMLU 벤치마크를 이용했으며, 이는 과학·기술·인문·사회과학 등 총 57개 분야를 포괄한다. 독성 탐지 능력 평가는 ToxiGen 데이터셋을 이용했다.

실험 결과(그림 4 참조), 중간 수준의 독성 데이터가 일반 능력을 향상시키는 동시에, 독성 탐지 성능은 독성 데이터가 증가함에 따라 꾸준히 향상된다는 것을 확인했다. 이는 Longpre 등(2023)의 결과와 일치한다. 기타 벤치마크와 평가 세부사항은 부록 A에 기술되어 있다.

A Pretrainer’s Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity
이 논문도 읽어볼만 할듯

독성 데이터가 언어적 다양성을 증가시켜 일반적 지식 습득을 도울 수 있으며, 명시적으로 독성 사례를 접함으로써 모델이 그런 패턴을 잘 탐지하게 된다고 설명할 수 있다. 결론적으로 독성 데이터 추가가 기본 모델의 일반 능력을 즉각적으로 망가뜨리는 것은 아니다. 최악의 결과는 모델이 사후 조정(post-training)을 하지 않을 경우 부적절한 대답을 할 수 있다는 점으로, 이는 섹션 5에서 추가로 평가될 것이다.

독성 데이터를 섞어도, MMLU 성능이 떨어지지 않는다는 것을 볼 수 있다는 것

4. Toxic Data Improves Concept Building

여기서는 독성 데이터가 사전학습(pretraining)에 어떤 영향을 미치는지, 특히 모델의 내부 표현(representations)에 집중하여 자세히 조사한다. 탐침법(probing literature, Alain and Bengio, 2016; Tenney et al., 2019; Belinkov, 2016)에 따르면, 네트워크 활성화(activations)에 선형 분류기(linear classifier), 즉 프로브(probe)를 훈련하여 다양한 입력을 분류할 수 있다. 만약 특정 모델이나 모델의 일부(층(layer) 또는 어텐션 헤드(attention head))가 이런 프로브 정확도가 더 높다면, 그것이 해당 개념에 대한 더 우수한 내부 표현을 구축했다는 뜻이다.

ToxiGen 데이터셋에 있는 각 텍스트를 입력으로 사용하고, 각 헤드의 마지막 토큰의 활성화를 수집하여 탐침 데이터셋 (${(x_l^h, y)i}{i=1}^N$)을 구성한다.

주어진 텍스트에서 마지막 토큰의 각 layer & 각 헤드 벡터와 label을 매핑하여 probe 데이터를 만들었다는 것 (layer=24, head=16 => 하나의 텍스트에서 24x16 개의 데이터가 추출)

레이블은 사람이 한것

여기서 (h)는 각 층(layer)의 헤드를 의미하며, (y)는 사람이 어노테이션한 텍스트의 독성 여부를 나타낸다((N=8,960)). 그 후 각 데이터셋을 4:1 비율로 훈련/검증 세트로 나누고, 훈련 세트에서 이진 선형 분류기를 훈련한 뒤, 검증 정확도를 통해 각 헤드가 독성 개념을 얼마나 구별 가능한 표현으로 학습했는지 평가한다.

우리는 두 가지 모델의 프로브 검증 정확도를 비교했다: 하나는 C4 데이터만 사용하여 학습한 모델이고, 다른 하나는 25%의 4chan 데이터를 포함해 학습한 모델이다(그림 5 참조, 부록 B에서도 확인 가능).

xhl을 어떤 모델에서 뽑을 거냐?

c4로만 학습한 모델 vs c4+4chan으로 학습한 모델
분류기는 그냥 wx+b 모델
특징벡터는 w가 되는 것

통계적 검정 결과, 독성을 포함한 데이터로 훈련한 모델의 평균 정확도가 유의하게 더 높다는 증거를 얻었다(p=0.0002). 정확도 차이의 95% 신뢰구간은 [0.67, 1.18]이었다. 더 중요한 점은 오른쪽 꼬리(tail)가 두꺼워졌다는 점이다. 이 꼬리는 특히 중요하다. 왜냐하면 추론 시 개입(activation steering)과 같은 사후 훈련(post-training) 과정에서, 모델의 전체 능력 손실을 최소화하면서 효과적으로 행동을 바꾸기 위해서는 정확도가 높은 헤드에만 개입하는 것이 필수적이기 때문이다.

요약하면, 섹션 2의 토이 모델(toy models)에 대한 발견이 Olmo-1B 규모의 모델에서도 일반화된다는 점이다. 즉, 독성 데이터를 사전학습한 모델은 독성에 대해 더 나은 선형 표현(linear representation)을 구축한다는 것이다.

프로브 정확도의 분포를 비교한 것 외에도, 우리는 Logit Lens(Belrose et al., 2023; nostalgebraist, 2020) 스타일의 언어화(verbalization) 실험도 수행했다. 우선 두 모델의 각 층에서의 잔차 흐름(residual stream)에 Jigsaw 데이터셋(Jigsaw and AI, 2018)을 사용해 프로브를 훈련했다. 그리고 나서 가장 정확도가 높은 층의 프로브 방향과 가장 가까운 50개 토큰을 찾았다(부록 C 참조). 이 토큰들을 살펴본 결과, 순수 C4 모델에서는 약 6개의 독성 토큰을, C4와 독성 데이터를 포함한 모델에서는 약 11개의 독성 토큰을 발견했다. 이는 독성 데이터를 이용하여 훈련된 모델이 독성 개념을 전반적으로 더 잘 이해하고 있다는 추가적 증거가 된다.

5. 독성 데이터는 정렬 가능성(Alignability)을 향상시킨다

만약 기초 모델(base model)이 독성(toxicity)에 대한 더 나은 개념 표현(concept)을 형성했다면, 독성 표현을 덜 사용하도록 모델을 통제하기도 더 쉬워져야 한다. 이번 장에서는 이를 검증하기 위해 두 가지 사후 훈련 기법(post-training techniques), 즉 프롬프팅(prompting)과 ITI(inference-time intervention, 추론 시간 개입)를 활용하여 실험을 진행한다.

사전 학습에 넣어서 특징 벡터가 잘 나누어져 있다면? Entangle이 덜하다면? 통제하기도 쉬어야한다는 것!

5.1. 추론 시간 개입(Inference-Time Intervention)의 배경

추론 시간 개입(inference-time intervention, 이하 ITI)은 활성화 조정(activation steering)이라고도 불리며, 원래 언어 모델이 환각(hallucination)을 일으키는 문제를 완화하기 위해 제안된 방법이다(Li 등, 2023; Turner 등, 2023; Zou 등, 2023).

이 방법은 어텐션 헤드(attention heads)의 잠재 공간(hidden space)에 있는 특정 속성(예: 진실성, 거부, 독성 등)과 관련된 선형 방향(linear directions)을 찾아내고, 디코딩(decoding) 과정에서 활성화 벡터를 이러한 선형 방향으로 이동시켜 원하는 속성을 강화하는 방식으로 작동한다.

이때 개입되는 헤드(head)의 수나 개입 강도(intervention strength) 같은 하이퍼파라미터(hyperparameters)는 모델의 일반적 성능을 유지하면서 원하는 속성으로 정렬(alignment)되는 것을 균형 있게 유지하도록 튜닝된다. 이번 실험에서는 개입하는 헤드의 수를 30개로 고정하고, 개입 강도를 약한 수준(4), 중간 수준(8), 강한 수준(12)의 세 단계로 설정하여 효과를 보다 종합적으로 분석했다.

ITI는 특정 목표(예: 진실성)를 최적화하면서 모델의 일반적 능력을 유지하는 일종의 절충(trade-off)을 제공하는데, 모델의 표현 공간(representation space)이 잘 형성되어 있을 경우 Pareto frontier(파레토 프론티어)를 더 나은 방향으로 이동시킬 수 있다.

5.2. 실험의 기준 비교군(Experimental Baseline Comparisons)

독성 데이터를 훈련한 모델에 대한 ITI의 효과를 실험하는 것뿐 아니라, 기존에 알려진 여러 기준 접근법(baseline approaches)과도 비교를 수행했다.

프롬프팅(Prompting): 모델에게 독성을 줄이는 지시사항이 담긴 프롬프팅을 사용한다.
사용한 프롬프트 예시는 다음과 같다:

"모든 결과물이 공손하고 편견 없으며 독성 내용이 포함되지 않도록 하십시오. 윤리적 지침을 따르고 포용성을 촉진하며, 고정관념이나 잘못된 정보를 퍼뜨리지 않도록 하십시오."

MEDA와 INST: 독성 감소를 목표로 하는 모델을 만들기 위해, Prabhumoye 등(2023)은 MEDA와 INST라는 두 가지 전략을 제안했다. 이 방법들은 프리트레이닝(pretraining) 데이터를 수정하여, 각 문장에 독성 점수를 주석(annotation)으로 추가한다.

MEDA에서는 Perspective API에서 제공한 실제 독성 점수를 다음과 같은 방식으로 문장 뒤에 추가한다:
```
toxicity: 0.1 <원래 문장>
```
INST의 경우, 독성 점수를 이진화(binary)한 후 문장 앞에 자연어 형식의 프롬프팅을 추가한다:
```
This is a (non-)toxic post. Post: <원래 문장>
```
테스트 단계에서는 모델이 독성이 없도록 하기 위해 "toxicity: 0" 또는 "This is a non-toxic post:" 와 같은 프롬프팅이 사용된다.

학습할때, 독성 데이터이고 아닌것에 대해 점수를 표기를 하는 방법

지도 미세 조정(Supervised Finetuning, SFT)과 직접 선호 최적화(DPO, Direct Preference Optimization):
이 연구의 핵심 제안은 ITI 그 자체가 아니라, 독성 데이터를 사전학습 데이터에 추가하는 아이디어다. 지금까지 실험은 ITI를 중심으로 진행됐지만, 다른 사후 훈련 기법에도 독성 데이터를 사전학습 단계에 추가하는 아이디어가 유효한지 테스트하기 위해 널리 쓰이는 두 가지 사후 훈련 기법도 시험했다. 구체적으로, 지도 미세 조정(SFT)과 직접 선호 최적화(DPO, Rafailov 등, 2023)를 통한 독성 제거(detoxification)를 시도하였다.

ITI 위주의 실험을 하지만, SFT, DPO등으로 독성 컨트롤 하는 실험도 하긴 하나봄?

이를 위해 Tulu V2를 사용하여 지도 미세 조정을 수행한 후 OpenHermes-2.5, WebInstructSub, Code-Feedback 데이터셋으로 미세 조정을 진행했다. DPO는 UltraFeedback 데이터셋(Liu 등, 2024; Cui 등, 2023)을 사용하여 평가했다.

5.3. 실험 결과 (Experimental Results)

다양한 기법을 이용한 독성 제거 효과를 평가하기 위해 ToxiGen 데이터셋과 Real Toxicity Prompts 데이터셋을 사용했다. ToxiGen 데이터셋은 일반적인(benign) 맥락과 독성(toxic) 맥락을 모두 포함하고 있으며, 독성 맥락은 민족 및 성적 소수자와 신체적·정신적 장애가 있는 사람 등 총 13개 인구 그룹을 대상으로 한다(Hartvigsen 등, 2022). Real Toxicity Prompts 데이터셋은 GPT-2 모델에서 독성 응답을 유도하기 위해 설계된 미완성된 프롬프트(prompt)들로 구성된다(Gehman 등, 2020).

실험 과정을 가속화하기 위해 각 데이터셋에서 프롬프트 3,000개씩을 샘플링하였다. 생성된 결과물들의 독성은 널리 알려진 독성 평가 도구인 Perspective API를 사용하여 평가하였다(PerspectiveAPI, 2024). 독성 제거 기법들이 모델의 성능에 미치는 정렬세(alignment tax)를 통제하기 위해 Open Web Text의 일부를 이용하여 교차 엔트로피 손실(cross entropy loss)을 비교하였다(Lin 등, 2023; Gokaslan and Cohen, 2019).

그림 6은 사전학습 데이터에서 4chan 데이터의 비율이 변화할 때 각 개입 강도(intervention strength)에서의 ITI와 기준 모델(baseline)의 결과를 보여준다. 빨간색 막대(개입 없이)는 예상한 대로 0%에서 20% 범위에서는 독성 데이터가 많아질수록 생성 독성이 증가한다. 그러나 ITI를 적용할 경우(파란색 막대), 이와 반대로 독성 데이터가 많아질수록 생성 독성이 감소하여, 10% 지점에서 가장 낮아지는 모습을 보인다.

이것이 본 논문의 제목인 "나쁜 데이터가 좋은 모델을 만드는 상황"이다. 사전학습 데이터에서 4chan 데이터의 비율이 10%를 초과하면, ITI의 효과가 다소 감소하지만, 여전히 순수한 클린 모델(clean model)보다는 독성이 낮다. 이 연구에서 사용된 비교적 작은 데이터와 모델 크기에서는 사전학습에 포함할 최적의 독성 데이터 비율이 10%인 것으로 보인다. 실제 모델의 경우 최적의 비율은 실험을 통해 결정해야 할 것이다.

그림에서 0% 인 경우가 독성 데이터가 안들어간 clean model 경우인데, 여기서 ITI을 해도 독성 생성이 10%넘게 생성되는 것을 볼 수가 있다.
하지만 10% 독성 데이터를 넘으면, ITI을 세게할수록 독성 생성 비율이 clean model보다 줄어드는 것을 알 수가 있다느 ㄴ것

표 1에서는 본 논문의 기법(사전학습 데이터에 독성 데이터 추가)을 5.2절에서 소개한 다양한 기준 모델들과 비교했다.

그림 6을 기반으로 가장 좋은 성능을 보인 독성 데이터 비율 10%를 포함하여 훈련한 모델을 선택했다. 클린 데이터로 훈련한 모델과 독성 데이터를 10% 추가한 모델을 비교했을 때, 프롬프팅 및 ITI와 같은 두 가지 사후 훈련 기법 모두에서 독성을 추가한 모델이 더 우수한 정렬 가능성(alignability)을 보였다.

ITI뿐만 아니라, 프롬프트로 독성 생성하지 말라고 해도 더 잘 컨트롤 되는 것을 볼 수가 있다

이는 독성 데이터를 포함하여 사전학습한 모델이 독성 개념에 대한 보다 종합적인 이해를 구축했다는 것을 다시 한번 뒷받침한다. 독성 데이터를 포함하여 사전학습한 모델은 약한 개입 강도(weak intervention)만으로도 모든 기준 모델들에 비해 독성을 가장 잘 제거하며, 교차 엔트로피 손실 또한 가장 낮게 유지하였다. 더 강력한 독성 제거를 원할 경우 사용자는 간단히 개입 강도를 조절하여 원하는 수준으로 맞출 수 있다.

큰 관점에서 보면, 본 논문의 결과는 Prabhumoye 등(2023)의 연구와도 일치하는데, 두 연구 모두 사전학습 데이터의 변형이 정렬 가능성을 높일 수 있음을 보여준다. 하지만 본 논문의 방식은 데이터를 인위적 문자열(artificial strings)로 과도하게 변형하지 않는다는 점에서 더욱 단순하고 효과적인 절충점을 제시한다.

표 2에서는 지도 미세 조정(SFT) 및 직접 선호 최적화(DPO) 방법으로 독성을 제거한 성능을 보여준다. 그림 6에서의 "웃는 얼굴 형태(smile-shaped curve)"와 유사한 경향을 여기서도 관찰할 수 있었다. 즉, 본 연구의 방법(독성 데이터를 사전학습에 추가)이 SFT와 DPO와 같은 다른 사후 훈련 기법에서도 독성 제거 성능을 높이는 것으로 나타났다. 이는 본 논문의 결과가 단순히 선형적인 ITI 방법에만 국한되지 않고 더 광범위하게 적용될 수 있음을 시사한다.

5.4. 레드팀 실험(Red-teaming Experiments)

독성 데이터 추가가 악의적 우회 공격(adversarial jailbreaks)에 미치는 영향을 평가하기 위해 강력한 화이트박스 공격 기법인 GCG(Genetic Contextual Gradient)를 이용한 레드팀(red-teaming) 실험을 수행했다(Zou 등, 2023). 이 방법은 모델로부터 유해한 응답을 유도하는 적대적 프롬프트(adversarial prompts)를 생성하는 기법이다.

총 네 가지 모델을 평가했다: 0% 및 10% 독성 데이터를 포함하여 훈련한 모델 각각에 대해 ITI 강한 개입(strong steering)을 적용한 경우와 적용하지 않은 경우를 평가했다. AdvBench 데이터셋에서 샘플링한 200개의 적대적 프롬프트로 GCG 공격을 수행했고, 유해한 응답을 성공적으로 이끌어낸 프롬프트 비율을 "공격 성공률(attack success rate)"로 정의하였다.

표 3에서 보듯, ITI를 적용하지 않은 경우 두 모델 모두 80% 이상의 높은 공격 성공률을 보이며 GCG 공격에 매우 취약한 것으로 나타났다. 반면, ITI의 강한 개입을 적용하면 공격 성공률이 두 모델 모두에서 크게 감소했다. 특히 독성 데이터를 추가하여 훈련한 후 ITI를 적용한 모델의 공격 성공률(38.5%)이 가장 낮았다. 이는 독성 데이터를 포함한 사전학습이 모델을 적대적 입력(adversarial inputs)에 보다 강력하게 만드는 효과를 지니고 있음을 나타낸다.

6. 관련 연구 (Related work)

미세조정 기반의 독성 제거 (Finetuning-based Detoxification)

대부분의 독성 제거(detoxification) 방법들은 독성과 관련된 데이터를 사용하여 사전학습된 모델을 미세조정(finetuning)하는 방식으로 작동한다. 이러한 방법들에는 도메인 적응(domain adaptation)을 활용하는 방식(Gehman 등, 2020; Gururangan 등, 2020; Solaiman and Dennison, 2021; Wang 등, 2022)과, 최근 들어 인기를 얻고 있는 RLHF(Ouyang 등, 2022), DPO(Rafailov 등, 2023) 등의 강화학습 기반 방법들이 포함된다. 이러한 기법들은 보상 모델(reward model) 또는 잘 정리된 지시사항 데이터셋을 이용하여 사용자 선호(user preferences)에 따라 기본 모델을 정렬하는 방식이다.

비록 이러한 방법들이 대규모 모델의 독성을 성공적으로 감소시켰지만, 모델 본래의 성능을 떨어뜨리는 부작용을 보이기도 한다(Kirk 등, 2023; Chen 등, 2024). Lee 등(2024)은 더 나아가 DPO로 얻은 방어 기제가 매우 약해서 선형적인 표현(linear representation)의 이동만으로 쉽게 무력화될 수 있음을 보였다. Qi 등(2023) 역시 의도하지 않은 미세조정(finetuning)으로도 정렬(alignment)의 효과가 쉽게 사라져 안전성 이슈를 야기할 수 있음을 보고하였다. 본 논문의 방법은 별도의 미세조정 단계를 요구하지 않고, 사전학습과 미세조정을 어느 정도 통합하는 방식을 택한다. 이 방식의 핵심 가설은 이런 통합된 설계가 모델이 독성에 대한 더 나은 내부 표현을 자동으로 학습하게 하여, 배포(deployment) 시 이를 더 효과적으로 억제할 수 있도록 한다는 것이다.

독성 데이터 넣고 잘 정렬해서 모델 공개해도, 결국에는 외부에서 살짝 건드리면 안정성 이슈 생기는거 아닌가? 결국 모델이 독성 지식을 갖고 있긴 하니까

제어된 생성 기반의 독성 제거 (Detoxification with Controlled Generation)

또 다른 연구 방향으로는 제어된 생성(controlled generation)이 있으며, 모델의 동작을 디코딩(decoding) 단계에서 직접 변경하는 방식이다. Gehman 등(2020)은 독성이 없는 토큰(token)의 확률을 높이는 보캐뷸러리 조정(vocabulary shifting)을 사용했고, Schick 등(2021)은 언어 모델의 내부적 지식을 활용하여 출력물에서 독성과 같은 원치 않는 속성을 줄이는 자기 편향 제거(self-debiasing)를 제안하였다. 그 외에도 특정 속성을 잘 알고 있는 전문가 모델(expert model)을 사용하여 다른 모델의 생성을 제어하는 방법들도 제안되었다(Keskar 등, 2019; Liu 등, 2021; Li 등, 2022). 하지만 이런 방법들은 일반적으로 추론 시간에 계산 비용이 많이 들고 언어의 유창성이나 모델의 전반적 성능을 저하시킬 수 있다는 단점이 있다. 최근에는 Dathathri 등(2019)과 Krause 등(2020)의 연구를 바탕으로, 언어 모델의 활성화(activation)를 더 깊이 탐구하는 방식의 제어된 생성 기법이 등장했다. ITI를 비롯한 일련의 해석가능성(interpretability)에 기반한 방법들이 제안되어, 이들이 언어 모델의 내부 표현을 정밀하게 수정하여 모델의 답변을 진실되게 하거나, 편견을 줄이거나, 특정한 감정을 표현하게 만들 수 있다고 주장하고 있다(Li 등, 2023; Turner 등, 2023; Zou 등, 2023). 하지만 이 방법들은 "모델의 숨겨진 공간(hidden space)에 잘 형성된 선형적 표현(linear representation)이 존재한다"는 핵심 가정에 의존한다. 본 논문은 이러한 선형적 표현이 보다 효과적으로 등장할 수 있는 조건을 심층적으로 조사하고 있다.

사전학습과 사후훈련의 공동 설계(Co-design of Pre- and Post-training)

대규모 언어 모델(LLM)의 사전학습과 사후훈련의 공동 설계(co-design) 관점에서의 기존 연구는 상대적으로 드물다. Merullo 등(2025)은 사전학습 데이터의 빈도(frequency)가 LLM에서 선형적으로 표현된 사실 기억 관계(factual recall relations)의 형성에 미치는 영향을 연구하였다. 본 논문은 이러한 아이디어를 확장하여, 사전학습 데이터의 빈도가 특정 개념의 선형적 표현이 덜 얽히게(less entangled) 형성되도록 유도할 수 있는지 탐구한다. 방법론적으로 본 논문과 가장 유사한 연구는 Prabhumoye 등(2023)으로, 이들은 독성 데이터를 사전학습 데이터에 직접 추가하지 않고 각 문장의 독성 정보를 자연어 형태의 주석으로 붙이는 방식을 사용하였다. 원하는 행동은 비슷한 형식의 무독성 프롬프팅(benign prompt)을 이용하여 모델이 유도하도록 만들었다. 본 논문의 결과는 이러한 과정을 더 단순화하면서도, 독성 제거와 언어적 유창성 유지 간에 더 우수한 절충점을 제공할 수 있음을 시사한다.

7. 결론 및 향후 연구 (Conclusion and Future Work)

사전학습 데이터를 준비하는 일반적 관행은 독성(toxic)이나 해롭고 부정직한 콘텐츠 등 특정 유형의 데이터를 배제하는 것이다. 본 논문에서는 '독성(toxicity)'에 대한 구체적인 사례 연구를 통해, 일반적으로 배제되어 왔던 데이터가 사전학습에 미치는 영향을 신중히 분석하였다.

그 결과, 독성 데이터의 비율이 증가할수록 모델은 독성 콘텐츠 분류에 더 뛰어나게 될 뿐 아니라, 독성 개념에 대한 덜 얽힌(less entangled) 내부 표현을 형성한다는 것을 발견했다. 이어서 다양한 독성 제거 기법을 이용하여 학습된 여러 모델의 스펙트럼을 평가한 결과, 독성 데이터를 추가하여 사전학습된 모델들이 초기에 더 독성 있는 출력을 내놓긴 하지만, 이후 사후 훈련(post-training) 단계에서 독성을 쉽게 완화할 수 있다는 점도 확인했다.

본 논문의 실험들은 "나쁜 데이터(bad data)"가 실제로는 "좋은 모델(good models)"을 만드는 중요한 재료가 될 수 있음을 시사한다. 따라서 사전학습 데이터의 선택은 철저히 실증적인(empirical) 문제로 다루어져야 하며, 단순히 나쁜 데이터를 제거하는 것이 더 좋은 모델을 보장할 것이라는 가정을 하지 말아야 한다. 이러한 실증적인 질문에 답하기 위해 중요한 고려사항 중 하나는, 사전학습(pre-training)과 사후훈련(post-training)을 하나의 통합된 시스템으로 간주하여 전반적인 목표 달성을 위해 최적화해야 한다는 것이다.

독성은 사전학습 데이터를 필터링할 때 가장 빈번히 사용되는 개념 중 하나이지만, 향후 연구에서는 본 연구의 결과가 다른 정렬(alignment) 관련 속성에도 일반화될 수 있는지 살펴보는 것이 유망한 방향이다. 예를 들어 역할극(role-playing, Wang 등, 2023)이나 시뮬라크라(simulacra, Park 등, 2023a)를 생성할 때는 특정 유형의 데이터를 배제하는 것이 자연스러운데, 이렇게 배제된 데이터가 예상치 못한 결과를 초래할 가능성도 있기 때문이다.

정량적 관점에서 볼 때, 사전학습 데이터에서 포함해야 하는 "나쁜 데이터"의 최적 비율(optimal amount)을 결정하는 일은 매우 유용할 것이다. 본 연구의 결과는 독성 데이터의 비율이 너무 높을 경우 오히려 독성 제어력(steerability)이 감소할 수 있음을 보여준다. 따라서 특정 속성의 빈도(feature frequency)와 사후훈련에서의 제어 가능성 간의 정확한 관계를 도출하는 것은 실제 사전학습 데이터 구성을 보정(calibrating)하고자 하는 연구자들에게 큰 도움이 될 것이다.

마지막으로, 본 연구에서 작동하는 내부 메커니즘을 이해하기 위해 탐구할 수 있는 흥미로운 연구 방향들이 많이 존재한다. 동기 부여 실험(motivating experiment, 섹션 2)에서 아직 충분히 다루지 않은 한 가지 측면은 '특징(features)의 수', '숨겨진 공간(hidden space)의 크기', 그리고 '특징 간 얽힘(entanglement) 감소 효과' 사이의 상호작용이다. 독성 행동을 제어하는 내부 회로(internal circuits)에 대해 더 많은 지식을 얻을수록, 우리가 원하는 방식으로 작동하는 시스템을 만들 가능성이 더 높아질 것이다.

Reference

https://arxiv.org/pdf/2505.04741

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-317, When Bad Data Leads to Good Models, ICML 2025