NL-156, You Don’t Know My Favorite Color: Preventing Dialogue Representations from Revealing Speakers’ Private Personas, NAACL 2022
0 Abstract
- 잡담 챗봇이라고도 하는 소셜 챗봇은 사전 훈련된 대규모 언어 모델을 통해 빠르게 진화합니다.
- 엄청난 발전에도 불구하고 최근 개인 정보 보호 문제가 발생했습니다.
- 모델 inversion 공격을 통해 대규모 언어 모델의 교육 데이터를 추출할 수 있습니다.
- 반면, 챗봇 훈련에 사용되는 데이터 세트에는 두 사람 간의 사적인 대화가 많이 포함되어 있습니다.
- 본 연구에서는 아직 잘 연구되지 않은 언어 모델링으로 훈련된 챗봇의 은닉 상태의 개인 정보 유출에 대해 더 조사한다.
- 간단한 신경망을 통해 화자의 페르소나를 높은 정확도로 추론할 수 있음을 보여줍니다.
- 이를 위해 은닉 상태로부터 페르소나 유출을 보호하기 위한 효과적인 방어 목표를 제안합니다.
- 우리는 제안된 방어 목표가 attack accuracy를 37.6%에서 0.5%로 크게 줄일 수 있음을 입증하기 위해 광범위한 실험을 수행합니다.
- 한편, 제안된 목표는 언어 모델의 강력한 생성 능력을 보존합니다.
1 Introduction
- 소셜 챗봇은 사실적인 질문에 답하는 것부터 정서적인 교제를 보여주는 것까지 많은 애플리케이션에 혜택을 주기 위해 널리 사용되었습니다.
- 최근 대규모 사전 훈련된 언어 모델이 발전하면서 대규모 LM(생성 언어 모델)을 기반으로 하는 챗봇을 구축하게 되었습니다.
- 이러한 LM 기반 챗봇을 훈련시키기 위해 사적인 대화를 수집합니다. 불행히도 큰 언어 모델은 훈련 데이터를 기억하는 경향이 있으며 일부 개인 데이터는 모델에서 복구할 수 있습니다(Pan et al., 2020; Carlini et al., 2021).
- 이러한 암기 문제 외에도 단순한 훈련 목표에 대한 "과도한 학습"은 학습 과제와 간접적으로 관련된 민감한 속성을 드러낼 수 있습니다(Song and Shmatikov, 2020).
- LM 기반 소셜 챗봇은 기본적으로 일반 LM의 개인 정보 문제와 오버러닝 문제를 상속합니다.
- 대화 상자에 대한 블랙박스 페르소나 추론 공격(4,332개 이상의 페르소나). GPT-2의 마지막 숨겨진 상태를 기반으로 하는 발언의 모든 표현은 방어 없이("LM에 대한 공격" 열) 방어와 함께("방어된 LM에 대한 공격" 열) 공격을 받습니다. 모델이 관찰된 표현을 기반으로 화자의 페르소나를 예측할 수 있다면 성공적인 공격으로 간주합니다. 그렇지 않으면 실패합니다. 실제로 모델을 배포할 때 인코딩된 발언을 전혀 드러내지 않는 강력한 모델이 예상됩니다.
- 예를 들어, 그림 1과 같이 미세 조정된 GPT-2를 LM 기반 소셜 챗봇의 인코더 및 디코더로 사용할 때 각 발화의 학습된 표현을 공격자가 얻을 수 있다면,
- 그런 다음 공격자는 표현을 기반으로 페르소나 정보를 예측하는 분류기를 구축할 수 있습니다.
- 예에서 볼 수 있듯이 14개의 발화 중 5개의 발화에 대해 공격자는 페르소나를 성공적으로 예측할 수 있으며, 이는 사용자(발화의 화자)가 페르소나 정보 공개를 선호하지 않는 경우 해로울 수 있습니다.
- 따라서 실제로 이러한 종류의 챗봇을 실제 응용 프로그램에 배포할 때 먼저 모델에서 개인 정보가 누출되지 않도록 해야 합니다.
- LM 기반 소셜 챗봇의 개인 정보 문제를 체계적으로 연구하기 위해서는 몇 가지 과제가 있습니다.
- 첫째, LM이 공개하는 개인 정보의 양을 정량화하는 데 사용할 수 있는 기존 데이터가 없습니다.
- 둘째, 민감한 정보를 얻기 위해 발화 수준 표현을 공격하는 방법을 보여주는 기존 작업이 없습니다.
- 셋째, 페르소나 추론 공격을 방어할 수 있는 기존 LM 기반 챗봇이 없었고 알려진 페르소나 속성과 알려지지 않은 페르소나 속성을 모두 보호하는 방법을 보여주는 연구도 없습니다.
- 이 문서에서는 위의 문제를 해결하기 위해 미세 조정된 GPT-2를 챗봇으로 사용합니다.
- 먼저 PersonaChat 데이터 세트의 해당 발화와 페르소나를 정렬하여 데이터 세트를 수집합니다(Zhang et al., 2018).
- 그런 다음 LM 기반 챗봇이 화자의 페르소나를 드러내는 "오버러닝"이 발생할 수 있음을 보여줍니다.
- 발화 수준 임베딩에 대한 블랙박스 페르소나 추론 공격을 수행하기 위해 단일 외부 MLP(다층 인식) 공격자 모델을 구축합니다.
- 챗봇의 매개변수에 액세스할 수 없는 공격자 모델은 4,332개의 페르소나에 대해 37.59%의 정확도로 화자의 페르소나를 유추할 수 있습니다.
- 공격자 모델의 높은 정확도는 발화 수준 임베딩이 화자의 사적인 페르소나 속성을 드러내는 잠재적인 취약성을 의미합니다.
- 따라서 이러한 과잉학습 문제를 해결하기 위한 훈련 알고리즘의 개선이 필요하다.
- 마지막으로 이러한 블랙박스 공격을 방지하기 위해 GPT-2에 방어 학습 전략을 적용합니다.
- GPT-2를 훈련시키고 공격자의 페르소나 추론 정확도를 0.53%로 낮추기 위한 추가 방어 목표로 제안된 KL 발산 손실(KL 손실)과 상호 정보 손실(MI 손실)(Song et al., 2019)을 결합합니다.
- 우리의 기여는 다음과 같이 요약될 수 있습니다:
- 1): To the best of our knowledge, we are the first to disclose and analyze the persona inference attack for LM-based chatbots and treat it as a privacy risk.
- 2): We propose an effective defensive training algorithm to prevent dialog representations from leaking personas of the corresponding speakers by uniform distribution approximation and mutual information minimization.
- 3): We conduct extensive experiments to quantify both privacy and utility of proposed defense mechanisms. Besides solving the persona leakage issue, the proposed training algorithm has nearly no negative influence on utility.
2 Related Work
3 Attacking on Language Models
- 이 섹션에서는 GPT-2에 대한 블랙박스 페르소나 추론 공격과 방어 전략을 설명합니다.
- 3.1절에서 우리는 먼저 문제 공식을 제공합니다.
- 그런 다음 섹션 3.2에서 공격에 대해 설명합니다.
3.1 Problem Formulation
- 사적인 대화 D에 대해 사전 훈련된 GPT-2 기반 챗봇 f이 있다고 가정합니다.
- 챗봇을 훈련하는 데 언어 모델링만 사용됩니다.
- adversary는 n개의 대화가 있는 외부 주석 대화 데이터 세트 Da = {(U1, s1),(U2, s2), ...,(Un, sn)} 하나를 소유합니다.
- 여기서 Ui는 i번째 대화의 발화 목록{ui1, ui2, ..., uini}을 나타내고 si는 해당 발화에 대한 민감한 페르소나 {si1, si2, ..., sini}의 목록에 해당합니다.
- 각 페르소나 skj는 사전 정의된 사전 및 0 ≤ skj ≤ C − 1에 따라 해당 페르소나에 매핑될 수 있는 정수이며 여기서 C는 사전 정의된 페르소나 속성의 총 수입니다.
- adversary의 목표는 발화의 임베딩 f(u)에서 화자의 페르소나 s를 추론하는 것입니다.
- 여기서 u와 s는 모든 발화 및 해당 페르소나 레이블을 나타냅니다.
3.2 Black-box Persona Inference Attack
- 페르소나 추론 공격은 supervised classification task으로 볼 수 있습니다.
- 블랙박스 공격 설정의 경우, 공격자는 공격자의 입력 임베딩에 대한 액세스 권한이 있는 대상 대화 모델 f에만 쿼리할 수 있으며 모델 매개변수 θf에 액세스하거나 수정할 수 없습니다.
- 그림 2의 왼쪽 부분과 같이 공격자는 외부 데이터 Da와 대화 모델 f를 사용하여 공격자 모델 A를 구축하려고 합니다.
- 방어가 없는 공격(왼쪽)과 방어가 있는 공격(오른쪽)의 시나리오. GPT-2의 훈련 단계는1로 표시되고 공격 단계는2로 표시됩니다. 언어 모델링과 방어자 목표는 모두 GPT-2 모델을 최적화하기 위해 방어를 위해 공동으로 훈련됩니다. GPT-2의 훈련 단계 1이 종료되면 GPT-2의 파라미터가 모두 동결된 후 공격 단계 2가 시작됩니다. 방어자는 공격자와 동일한 아키텍처를 공유하고 Lkl과 Lmi를 방어 목표로 사용합니다.
- 페르소나 예측자의 출력 A(f(u))는 C 페르소나 속성에 대한 추정 확률 분포입니다.
- 손실 함수 LA는 다음과 같이 공식화할 수 있는 예측 분포와 정답 분포 간의 교차 엔트로피를 활용합니다.
- 여기서 CE는 페르소나 레이블 skj와 A(f(ukj)) 간의 교차 엔트로피 손실을 나타냅니다.
- 잘 수행된 페르소나 예측자 A는 큰 개인 정보 위협을 일으킬 수 있습니다.
- MLaaS(Machine Learning as a Service)의 경우 A를 적용하여 애플리케이션 프로그래밍 인터페이스에 대한 메시지 가로채기(man-in-the-middle) 공격을 수행할 수 있습니다.
- 또한, 원시 데이터가 보호되고 전송 채널이 안전하더라도 호기심 많은 서비스 제공자는 공격자 A를 훈련시켜 서비스 사용자의 페르소나를 수집할 수 있습니다.
4 Defense Learning Strategies
- 수학식 1의 LM 교육 목표는 챗봇의 효용만 고려합니다.
- 이후의 실험 섹션에서 LM이 심각한 과잉 학습 문제를 가져온다는 것을 보여줍니다.
- 이상적으로는 페르소나 추론 공격에 대한 최적의 개인 정보 보호 챗봇을 달성하기 위해 공격자 모델 A의 확률 분포가 균일 분포에 가까워야 합니다.
- 즉, 공격자는 사후 추정 A(f(u))에서 추론 정확도를 향상시킬 수 없으며 정확도는 페르소나 속성에 대해 무작위 추측을 하는 것보다 낫지 않습니다.
- 또한 프라이버시에 대한 제약은 챗봇의 강력한 생성 능력을 유지하기 위해 유틸리티에 약간의 저하가 있어야 합니다.
- 적이 무작위 추측보다 더 나은 결과를 얻을 수 없다는 직관에 따라 4.1절에서 페르소나 예측자의 추정 분포를 평평하게 하는 것을 목표로 하는 KL 손실을 제안합니다.
- 챗봇의 숨겨진 상태 f(u)와 개인 페르소나 속성 s 간의 상호 정보를 최소화하는 것을 기반으로 섹션 4.2에서 MI 손실을 제안합니다.
- 마지막으로 섹션 4.3에서 전체 교육 목표를 보여줍니다.
4.1 KL Loss
- KL 손실은 A(f(u))와 균일 분포 사이의 Kullback-Leibler 발산을 최소화하는 것을 목표로 합니다.
- A(f(u)) 분포를 평평하게 하여 공격자가 공격자 모델 A를 훈련시킨 후 유용한 지식을 얻을 수 없도록 합니다.
- 균일 분포와 A(f(u)) 간의 KL 발산은 다음과 같이 공식화될 수 있습니다.
- 여기서 UNI는 균일 분포를 나타내고 k는 C 레이블의 k번째 페르소나 레이블을 나타냅니다.
- A: 페르소나 예측자
- u: 발화
- A(f(u))는 개인 페르소나속성을 예측하는 것이다.
- 즉 A(f(u))가 균일분포가 되도록 학습을 하겠다는 것이다.
- adversarial training과 비슷한 느낌인듯?
- 최적화를 위해 constant 항과 로그(Mireshghallah et al., 2021)를 생략하여 다음 손실 함수를 얻을 수 있습니다.
- 그러나 defenders의 관점에서는 attacker 모델 A와 해당 매개변수에 액세스할 수 없습니다.
- 대신, 그들은 가짜 공격자로서 자신의 페르소나 예측기를 구축할 수 있습니다.
- 보다 구체적으로, 데이터 세트 D' 및 페르소나 예측자 Ap에 주석을 달기 위해 적을 모방할 수 있습니다.
- 그러면 KL 손실은 다음과 같이 됩니다.
- 여기서 챗봇 θf 및 가짜 공격자 θAp의 매개변수는 KL 손실을 통해 업데이트됩니다.
- 직관은 챗봇을 가짜 공격자와 함께 훈련시켜 공격자 모델의 분포를 평평하게 하여 모델 과잉 학습을 방지하는 것입니다.
- 살짝 헷갈리는데, 아마 A가 학습된 페르소나 예측자인데, A가 attacker이고 이걸 바로 학습해버리면 A가 페르소나 예측을 못하게 학습하는거지 모델 f가 학습되는게 아니다.
- 그래서 A와 같은모델인 Ap인 defender을 두고, 이거를 통해 f을 학습할때 loss에 넣어준다? (그림에서 step 1)
- 그럼 A는 어따쓰냐? --> LM이 학습되고 나서 추후 사용? (그림에서 step 2)
4.2 MI Loss
- 프라이버시 제약은 숨겨진 표현이 페르소나 속성을 드러내서는 안 된다는 것을 요구합니다.
- 다시 말해서, 모든 발화 u와 발화 u 뒤에 있는 페르소나 s가 주어지면 f(u)와 s 사이의 상호 정보를 최소화하려고 합니다.
- Song et al. (2019) 및 Li et al. (2020), 상한은 다음과 같이 공식화될 수 있습니다.
- 여기서 p(s)는 s에 대한 임의의 분포일 수 있으며 q(x)는 θf로 매개변수화된 모델 f의 확률 분포를 나타내고 f(u)는 조건부 분포 q(f(u)|x, s에서 샘플링된 것으로 가정합니다. ).
- 그러나 q(s|f(u))는 추정하기 어렵습니다.
- 대신 pΨ(s|f(u))를 사용하여 KL 발산을 최소화하여 q(s|f(u))를 근사하고 다음과 같은 하한을 얻을 수 있습니다(Song et al., 2019).
- Therefore, our objective in Equation 6 can be formulated as an adversarial training objective:
- log p(s) is independent of f(u), and we may leave this term out in Equation 9:
- 그러면, 수학식 10은 f(u)로부터 s를 유추하는 적 pΨ와 페르소나 유추 공격으로부터 s를 보호하기 위해 θf를 수정하는 방어자 간의 적대적 게임을 예시한다.
- 적대적 훈련은 자연어 처리에서 민감한 특징을 보호하기 위해 널리 사용됩니다.
- pΨ를 학습하기 위해 softmax 활성화와 함께 페르소나 예측 모델 Ap를 사용하여 방어자에 대한 최종 목표를 얻습니다.
- We can rewrite Equation 11 into two losses: Lmi1(ukj , skj ; θAp ) = CE(Ap(f(ukj )), skj ) and Lmi2(ukj , skj ; θf ) = −CE(Ap(f(ukj )), skj ) for the fake adversary and the chatbot respectively. Then our MI loss can be formulated as:
4.3 Overall Objective
- 그림 2의 오른쪽 부분은 블랙박스 공격에 대처하기 위해 챗봇을 훈련시키는 방법을 보여줍니다.
- 방어자에 대한 손실 함수는 KL 손실, MI 손실 및 LM 손실을 결합합니다.
- MI 손실의 가짜 적 목표는 Ap 분포를 평평하게 만들려는 KL 손실을 위반합니다.
- 제안된 손실은 KL 손실에 더 많은 가중치를 할당합니다.
- where λ1 and λ2 are hyper-parameters and λ1 ≥ 10λ2 to flatten the distribution of Ap.
- 전체 손실 L로 훈련된 챗봇은 여전히 블랙박스 공격 시 A의 훈련 과정을 방해할 수 없지만 L은 f의 페르소나 오버러닝 문제를 완화하여 이러한 페르소나 추론 공격을 해결하는 것을 목표로 합니다.
6 Conclusion
- 본 논문에서는 LM 기반 챗봇이 화자의 페르소나를 드러내는 경향이 있음을 보여주고 GPT-2의 과학습을 방지하기 위한 효과적인 방어 목표를 제시한다.
- 효용성이 떨어지는 다른 작업들과 달리 우리의 방어 학습 전략은 LM 기반 챗봇의 강력한 생성 능력에 해를 끼치 지 않습니다.
- 우리는 개인 정보 보호와 유용성을 모두 평가하기 위해 광범위한 실험을 수행합니다.
- 제안된 방어 학습 전략의 견고성을 입증하기 위해 다양한 설정에서 블랙박스 페르소나 추론 공격을 수행합니다.
- 또한 제안된 방어 학습 전략이 유용성을 유지한다는 것을 보여주기 위해 자동 메트릭을 사용합니다.
- 향후 작업을 위해 공격자 모델의 분포를 평면화하는 작업을 제안합니다.
Reference
너무 쉽습니다. 역설적으로
답글삭제