◼ Comment

블로그 글인데, 읽으면서 느낀것은 사실 데이터 전처리가 safety의 근본일 수 있긴 하겠다 라는 생각이 들었다

물론 safety 정책상 단순 위험만을 말하는 것은 아니기 때문에, constitution ai 를 고려하긴 해야하지만
악의적이거나 명백한 위험과 관련된? 그런 데이터 필터링또한 중요하다는 것을 한번 보여준다.

결론은 간단하다

pretraining 데이터에서, 위험한 데이터라고 판단되는 것을 학습에 사용하지 않으면 CBRN(위험)데이터의 성능은 떨어지고, 일반 QA 성능은 유지된다는 것이다
어떤 필터링 모델을 사용하냐에 따라 결과는 달라지는데, small LM fine-tuned 모델을 사용했다고 하고 아래 논문의 방법이라고 함

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

그리고 관련연구 소개에서 생각해볼만한 것이

데이터 필터링해서, 아예 버리는 것이 아니라 <tag> 같은것을 붙여서 학습하는 방식이 있다고 한다.

아마 의도는 지식은 챙기되, 위험한 것에 사용하지 말라는 그런 작동을 유도한거 같음
나름 흥미로운 연구들인거 같아서 한번 볼만할거 같은데, 여기서 말하길 이 방법은 결국 jailbreak로 뚫릴 가능성을 가져서 위험할 수 있다고함

Unlearning

학습된 모델에서 지식을 빼는 개념인데, 이거는 robustness가 부족하다고 함
reference 단거보면, 23년도 인걸 봐서 최근에는 많이 연구되는거 같진 않고
오히려 최근 연구에서는 unlearning으로 제거되었다고 여겨진 지식이 여전히 유도될 수 있거나, 언러닝 과정이 유용한 능력을 손상시키는 경우가 많다고함

영향 함수?

또한 분류기를 사용하지 않는 직교적(orthogonal) 데이터 필터링 방법—예를 들어 영향 함수(influence functions; Koh et al., 2017; Grosse et al., 2023)를 활용해 다운스트림 유해 역량 평가로 가장 효과적으로 전이되는 사전학습 예제를 식별하는 방식—도 탐구하고자 한다.
이렇다는데 이건 뭐지?

Abstract

우리는 화학·생물·방사능·핵(CBRN) 무기에 관한 유해한 정보를 모델의 사전학습 데이터에서 제거하는 실험을 수행했다. 분류기를 사용해 유해 콘텐츠를 식별한 뒤, 필터링된 데이터셋으로 모델을 처음부터(pretraining from scratch) 다시 학습했다. 그 결과, 유익한 능력은 유지하면서도 유해 역량 평가에서의 정확도를 무작위 기준선 대비 상대적으로 33% 감소시키는 효과를 확인했다.

1. Introduction

인터넷 규모의 데이터로 학습된 AI 시스템은 방대한 범위의 주제에 대해 포괄적인 지식을 사용자에게 제공할 수 있다. 그러나 이러한 정보의 풍부함에는 오용될 경우 위험할 수 있는 민감한 정보 역시 포함되어 있다. 예를 들어, 화학·생물·방사능·핵(CBRN) 무기와 관련된 정보는 기본적인 기술적 배경을 가진 악의적 행위자에게 대량살상무기 개발을 가능하게 할 수 있다. 우리의 책임 있는 스케일링 정책(Responsible Scaling Policy, RSP)은 이러한 위협 모델로부터의 위험을 완화하고, 모델을 통해 유해한 정보가 확산되는 것을 제한하겠다는 약속을 담고 있다.

모델이 사전학습(pretraining) 과정에서 이미 유해한 정보를 학습한 이후에는, 언러닝(unlearning) 기법을 사용해 사후적으로 해당 정보를 제거하는 것이 어렵다(Deeb et al., 2024; Łucki et al., 2024). 기존 방법들은 다른 능력을 손상시키지 않으면서 유해한 내용을 완전히 제거하는 데 한계를 보인다. 본 글에서는 이러한 위험을 사전학습 데이터 필터링을 통해 근원에서부터 다룬다. 분류기를 사용해 잠재적으로 유해한 정보를 식별하고 이를 사전학습 데이터에서 제거한 뒤, 필터링된 데이터셋으로 모델을 처음부터 다시 사전학습했다.

그 결과, 특정 데이터를 필터링함으로써 모델의 전반적인 성능을 저하시키지 않으면서도 유해한 지식을 감소시킬 수 있었다. 중간 규모 모델에서 유해 역량 평가(harmful-capabilities evaluation) 성능을 무작위 기준선 대비 상대적으로 33% 낮추는 데 성공했으며, 동시에 MMLU, 코드(Code), 산문(Prose)과 같은 표준 벤치마크에서는 유의미한 성능 저하가 관찰되지 않았다.

학습이 다되고 나서 unlearning으로 위험한 지식을 제거하는것은 어렵다. (이런 연구가 있는 듯)
따라서 pretraining부터 위험한 데이터를 제거해서 학습하니 효과가 있더라

2. 설정 (Setup)

사전학습 데이터 필터링의 목표는 유해 역량 평가(harmful capability evaluations)에서의 성능 저하는 최대화하고, 무해한 역량 평가(harmless capability evaluations)에서의 성능 저하는 최소화하는 것이다. 이를 위해 우리는 모델의 사전학습 데이터셋에 포함된 각 문서의 유해성을 자동으로 점수화하고, 특정 임계값(threshold)을 초과하는 문서를 제거했다. 이 임계값을 조정함으로써 안전성과 유용성 간의 다양한 트레이드오프를 달성할 수 있었고, 모델 성능을 우리의 구체적인 요구사항에 맞게 조정할 수 있었다.

일부 정보는 잠재적으로 이중 용도(dual-use)를 가진다. 예를 들어, 일반적인 과학적 역량에 대한 정보는 악의적인 사용자에게는 유해한 작업을 수행할 수 있게 해줄 수 있지만, 동시에 선의의 사용자에게는 정당한 작업을 수행하는 데 도움이 될 수 있다. 따라서 유해한 정보에만 선택적으로 영향을 미치는 표적화된 데이터 개입(targeted data intervention)이 실제로 어느 정도까지 가능한지는 여전히 열린 문제로 남아 있다.

기본적으로 필터를 만들어서, threshold 넘는 문서는 제거했고, 이 값에 따란 trade-off가 있다는 것
예로, 과학적인 정보의 데이터는 도움이 되기도 하지만, 악의적인 사용자에겐 유해한 작업을 수행할 수 있게 도와준다. 따라서 어디까지가 유해한 데이터라고 봐야하는지는 열린 문제라는 것

그림 1: 사전학습 데이터 필터링 파이프라인. 분류기를 사용해 모델의 사전학습 데이터셋에 포함된 각 문서의 유해성을 자동으로 점수화하고, 특정 임계값을 초과하는 문서를 제거했다. 이후 분류기가 판단하기에 무해한 콘텐츠만 포함된 필터링된 데이터셋으로 모델을 처음부터 다시 사전학습했다.

3. 분류기 (Classifier)

유해 데이터 필터링의 핵심은 유해성 점수기(harmfulness scorer)이며, 우리는 이를 이진 분류 문제(유해함 vs. 유해하지 않음)로 정식화했다.

좋은 분류기는 다음 조건을 만족해야 한다.

정확성: 필터링 결과가 유해성을 효과적으로 줄이면서도 유용한 능력은 최소한만 손상시켜야 한다.
효율성: 사전학습 코퍼스의 규모가 매우 크기 때문에, 대규모 데이터를 처리할 수 있을 만큼 계산적으로 효율적이어야 한다.

3.1 방법 (Method)

우리는 CBRN 콘텐츠를 탐지하기 위해 6가지 분류 방법을 실험했다. 먼저 각 방법을 설명한 뒤, 각 방법에 사용된 백본(backbone) 모델을 논의한다.

미세조정된 헌법 기반 분류기 (Finetuned Constitutional classifier)
유해/무해로 라벨링된 데이터로 언어 모델(LM)을 미세조정(finetuning)했다. 자세한 내용은 Sharma et al., 2025를 참고하라. 특히 부록 B에는 예시 헌법(constitution)이 포함되어 있다.
프롬프트 기반 헌법 분류기 (Prompted Constitutional classifier)
CBRN 헌법을 위반하는 콘텐츠를 표시하도록 언어 모델에 프롬프트를 제공했다. 또한 CBRN의 다른 측면에 초점을 둔 헌법을 사용하는 두 번째 버전도 실험했으며, 이를 Prompted Constitutional classifier v2라고 부른다.
홀드아웃 손실(Holdout Loss; Mindermann et al., 2022)
유해한 CBRN 콘텐츠에 특화된 “카나리 모델(canary model)”을 구축한 뒤, 해당 문서에서 카나리 모델의 퍼플렉서티(perplexity)가 기본 모델보다 유의미하게 낮을 경우 해당 문서를 유해하다고 라벨링했다. 카나리 모델은 유해한 CBRN 데이터로 학습되었기 때문에, 유사한 자료에 대해 자연스럽게 더 낮은 손실을 보이며, 이는 해당 문서가 유해한 CBRN 콘텐츠를 포함할 가능성이 높다는 신호가 된다. 유해 언어 모델은 두 가지 방식으로 구축했다.
- 미세조정(Finetuned): 기본 모델을 유해 문서에 대해 언어 모델링 손실로 미세조정.
- 프롬프트 기반(Prompted): 유해 문서를 인컨텍스트 예시로 제공해 helpful-only 모델을 프롬프트.
FastText
유해/무해로 라벨링된 데이터를 사용해, 학습 가능한 임베딩을 가진 바이그램 bag-of-words 분류기를 학습했다(Joulin et al., 2016).
개체명 문자열 매칭 (Named Entities String Match)
특별한 주의가 필요한 유해 CBRN 개체명(named entities) 목록을 구축했다. 문자열 매칭을 사용하고, 문서 내 유해 개체명의 밀도를 해당 문서의 유해성으로 측정했다.

백본 모델 (Backbone Models)

미세조정된 헌법 분류기는 Claude 3.5 Haiku보다 훨씬 작은 소형 모델을 사용했다.
프롬프트 기반 헌법 분류기, 프롬프트 기반 CBRN 분류기, 홀드아웃 손실 분류기는 모두 Claude 3.5 Sonnet을 사용했으며, 이는 계산 비용이 매우 크다.
FastText는 소형 모델보다도 수차례(order of magnitude) 저렴하며,
개체명 문자열 매칭은 가장 저렴한 방법이다.

3.2 분류기 평가 (Classifier Evaluation)

분류기를 평가하기 위해서는 유해 및 무해 문서에 대한 라벨 데이터가 필요하다. 그러나 기존의 라벨링된 데이터가 없었기 때문에, 우리는 LLM을 프롬프트해 합성(synthetic) 라벨 문서를 생성했다.

구체적으로,

무해 문서는 Claude 3.5 Sonnet에게 MMLU 데이터셋(Hendrycks et al., 2020)에 포함된 무해한 자연과학(화학 및 생물학) 질문에 답하도록 프롬프트해 생성했고,
유해 문서는 helpful-only Claude 3.5 Sonnet에게 WMDP 데이터셋(Li et al., 2024)의 유해한 CBRN 질문에 답하도록 프롬프트해 생성했다.

개체명 분류기는 특정 유형의 유해성 일부만을 포착하도록 설계되었기 때문에 이를 제외하고, 나머지 모든 분류기에 대해 합성 데이터셋에서의 F1 점수를 측정했다.

그림 2: 우리가 구축한 다양한 분류기의 F1 점수. Claude 3.5 Sonnet 기반의 프롬프트 헌법 분류기가 가장 우수한 성능을 보였고, 그 다음으로 소형 모델 기반의 미세조정 헌법 분류기가 뒤를 이었다.

Claude 3.5 Sonnet을 사용하는 프롬프트 헌법 분류기는 F1 점수 0.96으로 가장 높은 성능을 보였고, 소형 모델을 사용하는 미세조정 헌법 분류기는 F1 점수 0.94를 기록했다. 그러나 Claude 3.5 Sonnet은 전체 사전학습 코퍼스를 스캔하기에는 계산 비용이 지나치게 크다.

이에 따라 우리는 전체 사전학습 코퍼스를 스캔하는 데에는 훨씬 작은 미세조정 헌법 분류기를 사용하고, 그 위에 두 가지 추가 변형을 실험했다.

미세조정 헌법 + 프롬프트 헌법 (순차적, Sequential)
먼저 비용이 저렴한 미세조정 분류기로 가장 유해한 문서 상위 1%를 선별한 뒤, 비용은 높지만 더 정밀한 프롬프트 분류기를 사용해 재정렬(reranking)했다. 이 2단계 분류기는 사전학습 데이터의 극히 일부만을 유해하다고 표시했는데, 이는 초기 단계에서 유해하다고 식별된 문서 대부분이 이후 프롬프트 분류기에서는 낮은 유해성 점수를 받았기 때문이다.
미세조정 헌법 + 개체명 (병렬, Parallel)
미세조정 분류기와 개체명 분류기를 각각 사용해 유해 문서를 선별한 뒤, 두 결과를 병합했다.

또한 유해하다고 표시된 데이터 샘플을 수동으로 검토한 결과, 우리가 제거하고자 했던 유해한 CBRN 정보와 잘 부합함을 확인했다.

다양한 분류기를 시도해봤고, 그거에 대해 합성 테스트데이터에 대해 성능을 평가했다.

성능 자체는 prompted constitutional이 좋지만, 이는 무거운 모델에 프롬프팅하는 방식이기 때문에, 이를 통해 모든 코퍼스를 볼 수는 없다.
따라서 먼저 Finetuned Constitutional로 한번 필터링하고 여기에 프롬프트 방법을 붙이거나, 개체명을 같이 사용하는 방식을 활용했다는 듯
만약 리소스가 더없다면 FastText 방법도 나쁘지는 않아 보이기는 하는데..

4. 사전학습 실험 (Pretraining experiments)

데이터 필터링의 효과를 평가하기 위해, 우리는 비교를 위한 모델 쌍(pair)을 처음부터 사전학습했다.

각 쌍에서 한 모델은 유해·무해 콘텐츠를 모두 포함한 필터링되지 않은 데이터셋으로 학습했고, 다른 한 모델은 분류기가 무해하다고 판단한 콘텐츠만 포함한 필터링된 데이터셋으로 학습했다.
공정한 비교를 위해, 필터링된 데이터셋과 필터링되지 않은 데이터셋이 동일한 수의 학습 예제를 갖도록 했다.
이를 위해 더 큰 초기 데이터 풀에서 필터링된 데이터셋을 구성했다.
데이터 필터링의 영향은, 동일 쌍의 두 모델 간 역량 평가(capability evals) 성능 차이로 측정했다.

4.1 평가 데이터 및 지표 (Evaluation data & metric)

우리 방법을 평가하기 위해 유해한 역량과 무해한 역량 모두에서의 변화를 측정했다.

유해 역량은 WMDP의 객관식 질문을 사용해 평가했다.
무해 역량의 경우, 먼저 MMLU의 자연과학(화학·생물학) 질문으로 평가했다. 이는 유해한 CBRN 콘텐츠와 비교적 가까운 양성(benign) 역량이므로, 과도한 데이터 필터링에 의해 취약할 수 있기 때문이다.
또한 데이터 필터링이 유용성에 의도치 않은 부작용을 일으키지 않는지 확인하기 위해, Prose, Code, Math, MMLU 등 상대적으로 관련성이 낮은 다양한 무해 역량도 함께 평가했다.

평가 지표는 다음과 같다.

Prose, Code: 퍼플렉서티(perplexity)
객관식 질문(WMDP, MMLU): top-1 few-shot 정확도

모든 결과는 필터링 없음(no filtering) 대비 상대적 성능 점수로 보고했다.

객관식 질문의 경우, 무작위 기준선(random baseline)을 기준으로 다음과 같이 상대 점수를 계산했다.
score(filtering) = (accuracy(filtering) - accuracy(random)) / (accuracy(no filtering) - accuracy(random)).
값이 클수록 역량이 더 잘 보존되었음을 의미한다.
Prose와 Code의 경우, 필터링 시 퍼플렉서티를 필터링 없음 대비 비율로 계산했다. 퍼플렉서티가 낮을수록 역량이 높기 때문에, 다음과 같이 변환했다.
score(filtering) = - perplexity(filtering) / perplexity(no filtering) + 2.

이 변환을 통해 두 지표 모두 값이 클수록 역량 보존이 큼을 의미하도록 방향성을 맞췄으며, 점수 1은 데이터 필터링으로 인한 역량 변화가 없음을 뜻한다.

효과적인 데이터 필터링이라면, 유해 역량에서는 상대 성능 점수가 1보다 충분히 작아야 하고, 무해 역량에서는 1에 가까워야 한다. 본 접근법은 필터 임계값을 조정함으로써 안전성과 유용성 간의 다양한 트레이드오프를 가능하게 한다.

여기서 랜덤 성능과 필터링의 유무에 따른 성능을 비교해서, 수치를 재는데
이 수치로 보여주고 하는 것은 데이터 필터링으로 인해 성능이 얼마나 유지되었는지를, 서로 다른 평가 지표들을 하나의 공통 척도로 비교하기 위해 만든 상대 점수
1에 가까울수록 필터링이 성능에 영향을 안끼쳤다고 보면 될듯

4.2 결과 (Results)

우리는 먼저 세 가지 데이터 필터의 성능을 비교했다.

Finetuned Constitutional 단독
Finetuned Constitutional + Prompted Constitutional
Finetuned Constitutional + Named Entities

이후 가장 성능이 좋은 필터의 전체 결과를 제시한다. 이하에서는 단순화를 위해 Finetuned는 Finetuned Constitutional 분류기를, Prompted는 Prompted Constitutional 분류기를 의미한다.

결과 플롯에서는 CBRN에 대한 상대 성능(낮을수록 좋음)을 y축에, 다양한 유용한 역량에 대한 상대 성능(높을수록 좋음)을 x축에 표시한다. 각 곡선 위의 서로 다른 점들은 서로 다른 필터링 임계값에 해당하며, 이를 통해 안전성과 역량 간의 트레이드오프를 조절할 수 있다.

4.3 서로 다른 필터 간 비교 (Comparison between different filters)

실험 결과, CBRN 데이터 필터링을 과도하게 적용했을 때 가장 큰 손실은 자연과학(화학·생물학) 역량에서 발생했다. 따라서 필터 비교에서는 CBRN과 자연과학 간의 트레이드오프에 집중했다.

그림 3: 유해한 CBRN과 무해한 자연과학에 대한 다양한 데이터 필터의 성능(필터링 없음 대비). Finetuned는 Finetuned + Named Entities와 유사한 성능을 보였으며, 두 방법 모두 Finetuned + Prompted보다 우수했다. 점수가 1보다 크면 데이터 필터링이 해당 평가에서 성능을 개선했음을 의미한다.

CBRN은 위험한거니까 성능이 낮아져야, 즉 1보다 작아질수록 좋은거고, Natural Science는 일반 성능이니까 1에 가까워질수록 좋은 것
그림에서 점은 threshold에 따라 변하는 성능인듯
즉 x축 1과 y축 1에 에서 안벗어나면서 아래로 갈수록 좋은 것

Finetuned 분류기만 사용한 경우(파란색)와 비교했을 때, Named Entities를 병렬로 추가한 경우(주황색)는 안전성–유용성 트레이드오프를 일관되게 개선하지 못했다.

이는 Finetuned 분류기가 이미 유해 개체명 목록을 포함하는 대부분의 유해 콘텐츠를 포착하고 있음을 시사한다.
Named Entities을 넣으면 CBRN을 꽤 많이 낮출 수 있어보이는데, Natural Science도 희생해야하는 모습을 보여줘서 그런거 같음
Natrual Science가 비슷한 수준으로 Named entities의 threshold을 조절하면 굳이 쓸 필요가 없다는 의미인듯

반면, Finetuned + Prompted의 2단계 분류기(회색)는 CBRN 성능을 줄이지 못했을 뿐 아니라, 오히려 소폭 증가시키는 결과를 보였다.

이는 분류기 평가에서는 Prompted 분류기가 가장 우수했던 점을 고려하면 다소 놀라운 결과다.
이러한 불일치는 실제 사전학습 문서 분포가 분류기 평가에 사용된 합성 문서 분포와 다르기 때문일 수 있다.
프롬프트 방식이 이 경우 성능이 낮은 것은, 유해성의 정의가 단순한 프롬프트로 명시하기에는 미묘한 측면이 많고, 라벨된 예제로 학습하는 미세조정 방식이 이러한 뉘앙스를 더 잘 학습하기 때문일 가능성을 시사한다.

이상의 결과를 바탕으로, 우리는 Finetuned Constitutional 분류기 단독을 데이터 필터링 솔루션으로 선택했다.

4.4 최적 필터의 전체 결과 (Full results of the best-performing filter)

이제 선택된 필터의 전체 결과를 제시한다. 각 플롯은 안전성(CBRN, 낮을수록 좋음)과 우리가 관심을 두는 특정 유용성 지표(Prose, Code, MMLU, Natural Science, Math; 높을수록 좋음) 간의 트레이드오프를 보여준다. 두 축 모두 필터링 없음 대비 상대 성능 점수이며, x축은 유용성, y축은 안전성이다.

데이터 필터링은 5개 무해 평가 중 4개에서는 모델 유용성을 저해하지 않는 것으로 보였다. 예외는 Math로, 이 경우 결과 변동성이 더 커서 특정 임계값에서는 성능이 저하되고 다른 임계값에서는 오히려 개선되었다. 전반적으로 본 결과는 유해 데이터와 무해 데이터를 효과적으로 분리할 수 있으며, 사전학습 데이터 필터링을 통해 유용성을 심각하게 훼손하지 않으면서 모델 안전성을 개선할 수 있음을 시사한다.

그림 4: 선택된 데이터 필터의 성능—유해한 CBRN과 다양한 무해·유용 역량에 대한 성능(필터링 없음 대비). 서로 다른 필터링 임계값을 선택함으로써 다양한 안전성–유용성 트레이드오프를 달성할 수 있다.

특정 임계값(0.939)에서, 본 데이터 필터링은 유해한 CBRN 평가에서의 정확도를 상대적으로 33% 감소시켰다(33.7±0.4% → 30.8±0.4%). 여기서 33% 감소는 25% 무작위 기준선을 기준으로, 해당 방법이 기준선을 얼마나 초과하는지를 바탕으로 계산된 값이다. 동시에 우리가 사용한 모든 무해 평가에서는 유의미한 성능 저하가 관찰되지 않았다.

그림 5: 선택된 임계값에서 데이터 필터링으로 인한 성능 변화(필터링 없음 대비). 최종 데이터 필터링은 CBRN 성능을 상대적으로 33% 낮추면서도, 어떤 무해 평가에서도 유의미한 성능 저하를 초래하지 않았다.

이러한 결과들은 종합적으로, 유해 데이터와 무해 데이터를 효과적으로 분리하고 사전학습 데이터 필터링을 활용해 유용성을 훼손하지 않으면서 모델 안전성을 개선할 수 있음을 보여준다.

5. 관련 연구 (Related Work)

사전학습 데이터 개입 (Pretraining Data Interventions)

이전 연구들은 다양한 목적을 위해 사전학습 데이터 개입을 탐구해왔다. 예를 들어, 독성(toxicity) 완화(PaLM 2), 개인정보 유출 감소(Korbak et al., 2023), 사전학습 효율성 향상(Wettig et al., 2024) 등이 있다. 대표적인 개입 방법으로는 데이터 필터링(data filtering)과 조건부 학습(conditional training)이 있으며, 조건부 학습은 사전학습 데이터 앞에 특수한 데이터 품질 토큰을 붙이고 이를 테스트 시점 추론에서 제어 신호로 사용하는 방식이다(Korbak et al., 2023; PaLM 2).

여기서 조건부 학습이란게 유해할 수 있는 데이터도 그대로 학습시키되, 나중에 그 지식을 “쓰지 말라”고 조건을 거는 방식에 가까운? 그런거라고 하는데
그 해당 데이터에 special token 같은걸로 앞뒤에 붙이는 그런식인거 같은데
이런 방법은 결국 유해한 지식을 학습하기 때문에 jailbreak 가능성을 남긴다는 것 같음

그러나 조건부 학습은 우리 접근법과 달리, 모델이 여전히 유해한 지식을 학습하게 되며, 그 결과 이러한 지식이 탈옥(jailbreak) 등을 통해 다시 유도될 가능성이 있다. 데이터 선택 측면에서, 선행 연구들은 영향 함수(influence functions)를 활용하거나(Zhang et al., 2024; Yu et al., 2024), 로그 확률 상관관계(log probability correlations)를 이용해 다운스트림 작업과 가장 관련성이 높은 사전학습 데이터를 식별하는 방법을 탐구해왔다(Thrush et al., 2024). 또한 모델 그레이더(model grader)를 활용해 고품질 데이터를 선별하는 연구도 존재한다(Wettig et al., 2024).

본 연구와 동시에 진행된 O’Brien et al., 2025는, 사전학습 데이터 필터링이 유해 텍스트에 대한 적대적 미세조정(adversarial finetuning) 상황에서도 오픈 가중치(open-weights) 모델의 안전성을 향상시킨다는 점을 보여준다.

LLM 언러닝 (LLM Unlearning)

기존 연구들은 사전학습이 완료된 LLM의 안전성을 사후적으로(post-hoc) 개선하기 위한 다양한 언러닝(unlearning) 기법을 탐구해왔다. 경사 상승(gradient ascent) 기반 방법은 제거하고자 하는 지식에 대해 경사 상승을 적용해 LLM을 학습시키는 방식이다(Jang et al., 2023; Yao et al., 2023). 다른 접근으로는 모델 내부 기법이 있는데, 이는 모델의 활성화나 가중치 내에서 제거 대상 지식을 먼저 국소화한 뒤, 이를 교란시키거나 미세조정해 해당 지식을 제거한다(Sinitsin et al., 2020; Zhu et al., 2020; Yu et al., 2023).

그러나 안타깝게도 기존의 언러닝 기법들은 종종 강건성(robustness)이 부족하다. 제거되었다고 여겨진 지식이 여전히 유도될 수 있거나, 언러닝 과정이 유용한 능력을 손상시키는 경우가 많다(Lynch et al., 2024; Deeb et al., 2024).

6. 결론 및 향후 연구 방향 (Conclusions and Future Directions)

본 글에서는 표적화된 사전학습 데이터 필터링(targeted pretraining data filtering) 접근법을 소개했으며, 이 방법이 모델의 유용성을 유지하면서 안전성을 효과적으로 개선할 수 있음을 보였다.

우리는 이러한 결과가 다양한 AI 위험을 완화하기 위한 유해 콘텐츠 필터링 연구를 촉진하기를 바란다. 본 블로그 글의 주요 초점은 오용(misuse) 위험이지만, 데이터 필터링은 미정렬(misalignment) 위험을 완화하는 데에도 잠재력을 가진다.

한 가지 가능한 접근은, AI가 문맥을 벗어난 추론(out-of-context reasoning)을 통해 미정렬된 행동을 수행하는 데 효과적인 전략을 설명하는 AI 연구 논문(Berglund et al., 2023)—예를 들어 보상 해킹(reward hacking), 책략(scheming), 기만(deception), 사보타주(sabotage) 등—이나 그러한 미정렬 행동을 조장하는 문서들을 사전학습 데이터에서 제거하는 것이다.

이러한 콘텐츠를 사전학습 데이터에서 제외하면, 학습된 모델이 그러한 행동을 수행할 수 있는 능력이 줄어들고, 애초에 그러한 행동에 관여할 가능성도 낮아질 수 있다.

데이터 필터링을 개선하기 위한 향후 연구 기회는 많다. 본 접근은 분류기를 사용해 필터링할 데이터를 결정하지만, 향후 연구에서는 분류기의 정확도와 효율성을 향상시킬 수 있다. 또한 분류기를 사용하지 않는 직교적(orthogonal) 데이터 필터링 방법—예를 들어 영향 함수(influence functions; Koh et al., 2017; Grosse et al., 2023)를 활용해 다운스트림 유해 역량 평가로 가장 효과적으로 전이되는 사전학습 예제를 식별하는 방식—도 탐구하고자 한다.

향후 연구에서는 데이터 필터링으로 학습된 모델의 미세조정에 대한 강건성(finetuning robustness)도 분석해야 한다. 적대적 환경에서는 악의적 행위자가 오용을 목적으로 유해 데이터로 모델을 미세조정할 수 있다. 사전학습 데이터 필터링으로 인해 감소한 유해 역량 중 어느 정도가 사후 미세조정(post-hoc finetuning)이나 인컨텍스트 프롬프팅을 통해 다시 회복될 수 있는지를 실증적으로 연구하는 것은, 최악의 시나리오에서 사전학습 데이터 필터링의 효과성을 평가하는 데 중요한 정보를 제공할 것이다(O’Brien et al., 2025).

Reference

https://alignment.anthropic.com/2025/pretraining-data-filtering/

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-315, Enhancing Model Safety through Pretraining Data Filtering, Antropic Blog 2025