NL-317, When Bad Data Leads to Good Models, ICML 2025
이전의 Findings와 위배되는 느낌이긴한데..? 아예 독성 데이터를 없애는것보다 조금은 섞어주는게 독성 개념을 알게해서 결국에 모델이 안전해지게 할 수 있다는거 같은데
사람으로치면, 마치 순수한 사람이 아무것도 모르게 이상한 행동을 하게 냅두는 것보다, 뭐가 잘못된것인지를 인지시키고 못하게 하는 방향이 맞다고 보는거 같음
Abstract
대형 언어 모델(LLM)의 사전 학습(pretraining)에서는 일반적으로 데이터의 질이 모델의 질을 결정한다고 믿는다. 본 논문에서는 사전 학습과 후처리(post-training)의 공동 설계 관점에서 데이터의 "질"이라는 개념을 재검토한다. 구체적으로, 독성이 높은(toxic) 데이터로 사전 학습을 하는 것이 오히려 후처리 과정에서 더 좋은 제어(control)를 가능하게 하여, 결과적으로 모델의 독성 출력을 감소시킬 수 있음을 탐구한다.
먼저, 간단한 실험을 통해 데이터 구성이 표현 공간에서 특징(feature)의 기하학적 구조에 어떤 영향을 미치는지 연구한다. 그 후, 깨끗한 데이터와 독성 데이터를 다양한 비율로 섞어 훈련된 Olmo-1B 모델을 이용한 통제된 실험을 통해, 독성 데이터 비율이 증가할수록 독성이라는 개념이 더 명확하고 선형적으로 표현됨을 발견한다. 또한, 독성 데이터가 기본 모델의 생성 독성(generational toxicity)을 증가시키지만, 역설적으로 이러한 독성을 제거하기가 더 쉬워진다는 점을 보인다.
Toxigen 및 Real Toxicity Prompts 데이터셋에서 평가를 수행한 결과, 독성 데이터로 훈련된 모델들이 추론 시간 개입(ITI, inference-time intervention)과 같은 독성 완화 기술을 적용할 때 생성 독성을 줄이면서도 일반적인 능력을 유지하는 데 있어 더 나은 균형을 달성함을 입증한다. 결론적으로, 후처리 과정을 고려하면 나쁜 데이터가 오히려 좋은 모델을 만들 수 있음을 시사한다.
1. Introduction
대형 언어 모델(LLM)을 사전 학습(pretraining)할 때, 일반적으로는 유해한 콘텐츠 생성을 막기 위해 학습 데이터에서 독성(toxic) 데이터를 제거하는 것이 관행이다(Raffel 외, 2020; Rae 외, 2021; Hoffmann 외, 2022; Thoppilan 외, 2022; Arnett 외, 2024).
- 여기서 말하는 관련 연구보니까 그냥 LLM에 관련된거가 많긴 하고
- Toxicity of the Commons: Curating Open-Source Pre-Training Data 이거는 한번 볼만할듯
신경망은 본질적으로 훈련 데이터의 분포를 반영하기 때문에, 독성 데이터의 제거가 직관적으로 합리적인 방법으로 보일 수 있다. 그러나 데이터가 독성이라 하더라도, 이를 제거하면 데이터의 다양성을 감소시키고, 모델이 세상에 대한 완전한 표현(representation)을 구축하는 데 방해가 될 수 있다. 실제로 Longpre 외(2023)의 연구에서, 사전 학습 데이터의 독성 필터링이 모델의 독성 식별 능력뿐만 아니라 대부분의 질의응답(QA) 과제에서의 성능까지 떨어뜨린다는 것이 밝혀졌다.
- 근데 이거는 보니까 약간 연구마다 말하는게 다른거 같음
기존의 사전 학습된 모델(base model)만을 고려하면, 실무자들은 독성 데이터를 얼마나 유지할지 결정하는 데 있어 딜레마에 빠진다. 즉, 독성 데이터를 너무 많이 유지하면 모델이 독성 내용을 생성하게 되고, 너무 적게 유지하면 모델의 능력(capability)이 제한되기 때문이다.
- 약간 적당히 넣어야만 하는 느낌? 후처리로 독성 제거는 하자
그러나 최근 들어 사전 학습 이후의 후처리(post-training)가 널리 사용됨에 따라, 사전 학습된 모델을 추가 처리 없이 직접 사용하는 경우가 점점 줄고 있다. 본 연구는 Longpre 외(2023)의 연구를 확장하여 사전 학습과 후처리 과정을 통합된 하나의 시스템으로 간주하고 연구한다. 즉, 사전 학습된 모델의 행동 자체보다는, 프롬프팅(prompting)이나 활성화 조정(activation steering)과 같은 후처리 기법을 적용한 후의 맞춤형(customized) 행동에 집중한다.
이 맥락에서, 우리는 사전 학습 데이터에서 독성 데이터의 비율이 높아질수록 기본 모델의 정렬성(alignability)이 향상될 수 있다는 가설을 세운다(이러한 경향성은 본 논문의 실험을 통해 일정 임계치까지 확인되었다).
- 핵심 가설
본 연구의 주요 동기는 Lee 외(2024)와 Qi 외(2023)의 연구에서 얻었다.
- 이들의 연구에 따르면, 정렬(alignment) 알고리즘은 독성을 생성하는 메커니즘 자체를 학습 해제(unlearn)하지 않고, 단지 그러한 메커니즘을 우회(bypass)할 뿐이며, 의도적이든 아니든 이 메커니즘이 쉽게 다시 활성화될 수 있다고 보고하고 있다.
- 후처리로 완전히 독성 제거는 어렵다는 것.
- 그렇다고 처음부터 독성 필터링을 해버리면 일반 모델 성능(능력)이 떨어질 수도 있고해서
- 적당히 넣어서 모델의 정렬성을 향상시키자.
- 후처리 과정에서 독성에 대한 지식을 완전히 제거하는 것이 어렵다면, 오히려 처음부터 독성에 대한 이해를 강화하여 모델이 독성 콘텐츠를 생성할 때 더 명확한 자각(self-awareness)을 가지게 하는 것이 낫지 않을까 하는 것이다.
- 실제로 독성 표현은 종종 의도적이라기보다는 말하는 사람이 어떤 표현이 독성으로 간주될 수 있는지를 충분히 인지하지 못해서 발생하기도 한다.
이 문제를 탐구하기 위한 첫 단계로, 특정 특징(feature)의 데이터가 학습 데이터에 얼마나 존재하는지와 해당 특징이 다른 특징과 얽혀있는 정도(entanglement)의 관계를 연구하는 간단한 환경(toy setting)을 만든다. 이를 위해 우리는 Elhage 외(2022)가 제안한 초위치 가설(superposition hypothesis)을 바탕으로 한다. 이 가설은 트랜스포머(transformer) 모델의 숨겨진 공간(hidden space)에 특징이 뉴런보다 많을 때 어떻게 여러 특징이 중첩(superposed)되는지 이론화한 것이다. 우리의 실험에서는 특정 특징과 관련된 데이터가 많아질수록, 숨겨진 공간에서 해당 특징의 표현이 덜 얽히는(less entangled) 경향을 관찰한다.
2. 동기 부여 실험 (Motivating Experiment)
이 섹션에서는, 특정 유형의 데이터가 학습 세트에 존재하지 않을 때 모델이 특징(feature)의 표현(representation)을 형성하는 데 어떤 영향을 받는지를 더욱 잘 이해하고자 한다. 이를 위해, 우리는 Elhage 외(2022)가 제안한 초위치(superposition) 가설의 이론적 배경을 바탕으로 논의를 진행한다.
이 초위치 가설에 따르면, 특징의 수가 뉴런의 수를 초과할 경우, 신경망은 서로 관련 없는 다수의 특징 표현을 활성화 공간(activation space)의 한 차원에 중첩(superpose)하여 표현해야 한다. 이러한 배경을 바탕으로 우리는 각 특징(feature)이 다른 특징들과 얼마나 얽혀 있는지(entanglement)를 정의하고, 데이터에서 점차 누락된 특정 데이터의 유형을 다시 도입할 때 이러한 얽힘이 얼마나 줄어들 수 있는지를 조사하고자 한다. 본 실험의 계획은 그림 1에서 시각적으로 표현되어 있다.
2.1. 특징들의 얽힘 (Entanglement of Features)
이전 연구들(Mikolov 외, 2013; Arora 외, 2018; Park 외, 2023b)에 따르면, 신경망이 특정 특징(features)을 활성화 공간(activation space)의 특정한 선형 방향(linear directions)을 따라 표현(encode)할 수 있다고 알려져 있다. 그러나 신경망이 자신이 가진 표현 공간(representation space)보다 더 높은 차원의 특징 공간(feature space)을 나타내야 하는 상황에서는 여러 특징의 표현을 하나의 방향에 중첩(superpose)시키는 일이 발생하며, 이를 초위치(superposition) 현상이라고 한다(Elhage 외, 2022). 초위치는 하나의 뉴런이 여러 개의 서로 무관한 개념을 동시에 표현하는 대형 언어 모델에서 흔히 관찰된다(Cunningham 외, 2023; Lim과 Lauw, 2023).
초위치=Superposition
초위치는 각 뉴런 방향이 더 이상 하나의 이해 가능한 특징만을 나타내지 않기 때문에, 네트워크의 행동을 해석(interpret)하는 데 큰 어려움을 초래한다. 또한, 초위치는 활성화(activation)를 편집(edit)하는 작업도 복잡하게 만든다(Li 외, 2023; Turner 외, 2023). 초위치가 발생하면, 각 특징들이 본질적으로 독립적이라 하더라도 그 특징들의 인코딩 방향이 서로 상관관계가 있게 된다. 따라서 하나의 특징을 수정하는 것이 다른 특징에도 원치 않는 영향을 미치게 되는데, 이는 하나의 방향을 수정하면 항상 다른 특징의 방향에도 영향을 미치는(non-zero projection) 결과를 가져오기 때문이다.
초위치 현상을 개별 특징에 대해 더 세부적으로 이해하려면 어떻게 해야 할까? 우리는 각 특징이 얼마나 명확하게 드러나는지를 평가하는 새로운 측정법을 정의하고자 한다. 각 특징 ( P_i ) 에 대한 얽힘(entanglement) 측정법을 다음과 같이 정의한다:
여기서 ( $v_{P_i}$ ) 는 특징 ( $P_i$ ) 의 방향을 나타내는 단위 벡터(unit vector)이다.
그림 2는 이러한 얽힘 측정법의 개념을 간단하게 도식화한 것이다. 왼쪽 패널에서는 특징의 수가 공간의 차원 수보다 많음에도 불구하고 각 특징 벡터가 가능한 한 균일하게 분포하여 모든 특징이 비슷한 정도로 얽힌 상태를 보여준다. 반면 오른쪽 패널에서는 녹색 특징이 다른 특징보다 훨씬 덜 얽혀 있어 얽힘 측정값이 더 작다. 그러나 이로 인해 다른 두 특징(빨간색과 파란색)의 얽힘이 높아진다. 이상적으로는 특징의 표현이 가능한 한 적게 얽혀야 각 특징의 존재를 정확히 탐지하고 편집할 수 있다.
비고 1 (Remark 1)
두 특징 벡터의 코사인 유사도(cosine similarity)가 -1에 가까운 경우, 이들이 서로 얽히지 않은(disentangled) 상태를 의미하는 것이 아니라 오히려 매우 강력하게 얽힌 상태를 의미할 수 있다. 예를 들어, 한 특징의 반의어(antonym) 특징을 정의하면 그 코사인 유사도는 +1에 가까워진다. 이러한 점을 고려하여 우리는 얽힘 측정값을 코사인 유사도의 절대값(absolute value)으로 정의한다.
비고 2 (Remark 2)
특징 방향(feature directions) ( v_{P_i} ) 을 정의하는 방법은 여러 가지가 있다. 한 가지 방법은 특정 특징과 다른 특징들을 가장 잘 구분할 수 있는 초평면(hyperplane)의 법선 벡터(normal vector)를 사용하는 것으로, 이는 특징을 분류하기 위한 탐침(probe)을 훈련할 때 얻어지는 가중치(probe weight)와 동일하다. 또 다른 방법은 특징 표현들의 평균점을 계산하여 방향을 얻는 것이다. 본 실험에서는 첫 번째 방법을 사용하되 약간 변형한다. 우리는 특징과 마지막 토큰(token)의 조합으로 탐침(probe)을 훈련시키고, 어휘 집합(vocabulary)의 평균으로 특징 방향을 정의한다.
비고 3 (Remark 3)
표현 공간이 M차원이고, 모델이 N개의 고유한(unique) 특징 방향을 학습할 때, 만약 ( N > M ) 이라면 (이는 실제 트랜스포머 모델에서는 거의 항상 성립함(Elhage 외, 2022)), N개 특징들의 최대 얽힘은 Welch 바운드(Welch bound; Welch, 2003)를 이용하여 다음과 같이 계산할 수 있다:
여기서 등호(최소 얽힘의 최대값)는 벡터들이 표현 공간에서 균일하게 퍼져 있을 때만 성립한다. 따라서 평균적인 특징 얽힘(entanglement)의 하한은 (\sqrt{\frac{N-M}{(N-1)M}})로 주어진다. 다만, 실제 환경에서는 이 실험과 같이 통제된 설정이 아니면 N을 정확히 추정하기 어렵다는 점에 유의하라.
Reference











댓글
댓글 쓰기