NL-316, Deduplicating Training Data Mitigates Privacy Risks in Language Models, ICML 2022
이 논문은 대규모 언어 모델의 프라이버시 위험이 기존에 과대평가되었을 수 있으며, 그 주된 원인은 모델 자체의 과도한 암기라기보다 학습 데이터에 존재하는 시퀀스 수준의 중복이라고 주장한다. 웹 스크래핑으로 수집된 대규모 학습 데이터에는 동일하거나 거의 동일한 텍스트 조각이 다수 반복되어 포함되어 있고, 언어 모델은 이러한 중복된 시퀀스를 비중복 시퀀스에 비해 초선형적으로 더 자주 생성하는 경향을 보인다. 그 결과, 기존의 모델 인버전 및 멤버십 추론 기반 프라이버시 공격은 실제로는 희귀한 개인 데이터를 복원하기보다는, 학습 데이터에 여러 번 등장한 중복 텍스트를 주로 회수하는 데 성공한 것처럼 보였을 가능성이 크다.
실험적으로 저자들은, 학습 데이터에서 한 번만 등장한 시퀀스는 거의 생성되지 않는 반면, 여러 번 중복된 시퀀스는 등장 횟수에 비례하는 수준을 넘어 훨씬 높은 빈도로 생성됨을 확인하였다. 또한 멤버십 추론 기법들은 중복된 시퀀스에 대해서는 높은 탐지 성능을 보이지만, 중복되지 않은 시퀀스에 대해서는 무작위 수준의 정확도에 머문다. 마지막으로, 학습 데이터에서 시퀀스 중복을 제거한 모델을 사용하면, 생성 단계에서 유출되는 학습 데이터의 양이 크게 감소하고, 프라이버시 공격의 전반적인 효과 역시 현저히 약화됨을 보였다.
종합적으로 이 논문은, 언어 모델의 프라이버시 위험을 평가하고 완화하기 위해서는 공격 기법의 정교함보다도 학습 데이터의 중복 구조를 먼저 고려해야 하며, 데이터 중복 제거는 비용 대비 효과가 매우 큰 실질적 프라이버시 방어 수단임을 강조한다.
Abstract
기존 연구들은 대규모 언어 모델이 프라이버시 공격에 취약하다는 점을 보여주었다. 이러한 공격에서는 공격자가 학습된 모델로부터 텍스트 시퀀스를 생성한 뒤, 그중 어떤 시퀀스가 학습 데이터에 기억(memorized)되어 있는지를 판별한다. 본 연구에서는 이러한 공격의 성공이, 일반적으로 사용되는 웹 스크래핑 기반 학습 데이터셋에 존재하는 중복(duplication) 에 크게 기인함을 보인다.
먼저 우리는 언어 모델이 학습 데이터에 포함된 시퀀스를 다시 생성(regenerate)하는 빈도가, 해당 시퀀스가 학습 데이터에 등장한 횟수와 초선형적(superlinear) 관계를 가진다는 것을 보인다. 예를 들어, 학습 데이터에 10번 등장하는 시퀀스는 단 한 번만 등장하는 시퀀스에 비해 평균적으로 약 1000배 더 자주 생성된다.
다음으로, 기존의 기억된 시퀀스 탐지 방법들이 중복되지 않은 학습 시퀀스에 대해서는 거의 무작위 수준의 정확도만을 보인다는 점을 보인다. 마지막으로, 학습 데이터를 중복 제거(deduplication)한 후 모델을 학습시키면, 이러한 유형의 프라이버시 공격에 대해 언어 모델이 훨씬 더 안전해진다는 것을 확인한다.
종합하면, 본 연구 결과는 프라이버시가 중요한 응용에서 데이터 중복 제거의 중요성을 강조하며, 기존 프라이버시 공격 기법들의 현실적 위협 수준에 대한 재평가가 필요함을 시사한다.
1. 서론 (Introduction)
신경 언어 모델(Neural Language Models, LMs)은 텍스트 시퀀스에서 다음 단어를 예측하도록 학습된 시스템으로, 현재 수많은 자연어 처리(NLP) 작업과 도메인에서 핵심적인 구성 요소로 사용되고 있다. 이러한 모델들은 뛰어난 성능과 범용성을 갖추고 있기 때문에, 학습 데이터의 프라이버시를 얼마나 잘 보존하는지를 연구하는 것이 매우 중요하다. 특히 이메일, 의료 기록, 채팅 로그, 소스 코드와 같이 민감한 정보를 포함하는 데이터로 학습되는 경우가 많기 때문이다.
그러나 개인 정보가 포함된 데이터로 학습할 경우, 언어 모델은 해당 정보를 기억(memorize) 하고 공격자에게 누설할 수 있다.
- 기존 연구들은 이른바 모델 인버전 공격(model inversion attacks) 이 실제로 가능함을 보여주었는데,
- 이는 공격자가 학습된 모델에 대해 블랙박스 접근만으로도 학습 데이터를 복원할 수 있음을 의미한다(Carlini et al., 2019; 2021b; Inan et al., 2021).
특히 Carlini et al. (2021b)이 제안한 가장 강력한 공격은, 먼저 모델로부터 대량의 텍스트 시퀀스를 생성한 뒤, 다양한 멤버십 추론(membership inference) 기법을 사용해 어떤 시퀀스가 학습 데이터에 포함되어 있었는지를 판별한다. 이후 점수가 가장 높은 시퀀스들을 학습 데이터에 속한 것으로 분류한다.
본 연구에서는 Carlini et al. (2021b)의 공격이 성공하는 주요 원인이, 웹 스크래핑 기반으로 수집된 학습 데이터셋에 널리 존재하는 중복된 시퀀스들임을 보인다. 우리는 다양한 파라미터 규모의 트랜스포머 언어 모델을 분석하여 다음 두 가지 사실을 확인한다.
(1) 특정 학습 시퀀스를 복원할 가능성은, 해당 시퀀스가 학습 데이터에 몇 번 등장했는지(중복 횟수) 와 강하게 상관되어 있으며,
(2) 학습 데이터에서 시퀀스 수준의 중복을 제거하면, 전체 공격의 효과가 현저히 감소한다.
질문하신 멤버십 추론(Membership Inference) 은, 이 논문과 프라이버시 공격 문맥에서 매우 핵심적인 개념입니다. 아래에서 개념 → 직관 → 이 논문에서의 역할 순서로 정리하겠습니다.
1. 멤버십 추론이란 무엇인가
멤버십 추론 공격이란,
어떤 데이터 샘플이 특정 모델의 학습 데이터에 포함되었는지 여부를 판별하는 공격
입니다.
형식적으로는 다음과 같습니다.
입력:
학습이 완료된 모델 ( f )
후보 샘플 ( x ) (문장, 이미지, 코드 등)
목표:
( x \in ) training data 인지, 아니면 아닌지를 맞히는 것
즉, “이 문장이 모델 학습에 쓰였나?” 를 알아내는 공격입니다.
2. 왜 이게 가능한가 (직관)
이론적으로 잘 일반화된 모델이라면
학습 데이터와
보지 못한 데이터에
거의 동일하게 반응해야 합니다.
하지만 현실에서는:
모델은 학습 데이터에 대해 더 낮은 perplexity / 더 높은 확신 / 더 높은 우도를 보이는 경향이 있고
특히 중복되거나 자주 등장한 샘플은 더 강하게 기억됩니다
이 차이를 이용해,
“이 샘플은 모델이 유난히 잘 맞추네 → 학습 데이터였을 가능성이 높다”
라고 추론하는 것이 멤버십 추론입니다.
3. 고전적인 예시 (언어 모델 기준)
예를 들어 어떤 문장 (x)가 있을 때:
“My SSN is 123-45-6789”
모델이 이 문장에 대해:
매우 낮은 perplexity
거의 오류 없이 그대로 생성
다른 모델보다 유난히 높은 likelihood
을 보인다면, 공격자는 다음을 의심합니다.
“이 문장은 학습 데이터에 실제로 있었던 것 같다”
이것이 멤버십 추론의 기본 논리입니다.
4. Carlini et al. (2021b)에서의 멤버십 추론
이 논문에서 다루는 공격은 2단계 공격입니다.
1단계: 생성 (Generation)
언어 모델로부터 대량의 텍스트를 생성
이 중 일부는 학습 데이터를 그대로 복사한 것일 수 있음
2단계: 멤버십 추론 (Detection)
생성된 각 시퀀스에 대해:
“이게 학습 데이터였을까?”를 점수화
Carlini et al. (2021b)은 이를 위해 다음과 같은 멤버십 점수를 사용합니다.
| 방법 | 직관 |
|---|---|
| Reference model | 학습 안 한 다른 모델보다 유난히 잘 맞추는가 |
| zlib | 압축이 잘 될수록 ‘단순한/흔한’ 문장 → memorized 가능성 |
| Lowercase | 대소문자 무시해도 잘 맞추는가 |
이 점수가 높은 시퀀스를 training data membership = yes 로 판별합니다.
5. 이 논문에서의 핵심 주장과 연결
이 논문의 핵심 메시지는 다음입니다.
멤버십 추론이 “모델이 본질적으로 위험해서” 잘 되는 게 아니라,
학습 데이터에 동일한 시퀀스가 여러 번 들어 있었기 때문에 잘 되는 경우가 대부분이다.
구체적으로:
중복된 시퀀스
→ 자주 생성됨
→ 멤버십 추론 점수도 높음중복되지 않은 시퀀스
→ 거의 생성되지 않음
→ 멤버십 추론 정확도 ≈ 랜덤
즉,
중복 제거를 하면, 멤버십 추론 기반 프라이버시 공격의 실질적인 위협이 급격히 줄어든다
라는 결론으로 이어집니다.
6. 한 문장 요약
멤버십 추론이란
모델의 출력 반응을 관찰해, 특정 데이터가 학습에 쓰였는지를 판별하는 프라이버시 공격 기법이며,
이 논문은 그 성공 원인의 상당 부분이 데이터 중복 때문임을 밝힙니다.
8. 결론 및 향후 연구 (Conclusion and Future Work)
프라이버시를 보존하는 머신러닝 모델을 구축하기 위해서는, 단순히 프라이버시 취약점을 식별하는 데 그치지 않고, 그러한 취약점이 학습 알고리즘, 모델 구조, 그리고 학습 데이터 중 어디에서 비롯되는지를 근본적으로 추적해야 한다. 본 연구는 이러한 목표를 향한 한 걸음으로서, 시퀀스 수준의 데이터 중복이 최근 제안된 언어 모델 프라이버시 공격의 성공에 있어 중요한 요인임을 강조하였다. 또한, 학습 데이터에서의 중복 횟수가 증가함에 따라 언어 모델이 해당 시퀀스를 생성하는 빈도가 초선형적으로 증가한다는 발견은, 향후 추가 연구가 필요한 새로운 현상이다.
아울러 본 연구는, 학습 데이터에서 중복을 제거할 경우 기존 연구들이 보고한 프라이버시 공격의 효과가 과대평가되었을 가능성이 있음을 보여준다. 따라서 향후 프라이버시 공격을 평가할 때에는, 데이터 중복을 하나의 중요한 혼란 요인(confounding factor) 으로 고려해야 한다. 더 나아가, 미래의 공격 기법들은 중복 여부뿐 아니라 데이터의 다양한 특성에 따라 성능을 분석해야 하며, 이를 통해 어떤 조건에서 공격이 성공하고, 어떻게 방어할 수 있는지에 대한 보다 정밀한 이해를 얻을 수 있을 것이다.
Reference

댓글
댓글 쓰기