0 Abstract

잡담 챗봇이라고도 하는 소셜 챗봇은 사전 훈련된 대규모 언어 모델을 통해 빠르게 진화합니다.
엄청난 발전에도 불구하고 최근 개인 정보 보호 문제가 발생했습니다.
모델 inversion 공격을 통해 대규모 언어 모델의 교육 데이터를 추출할 수 있습니다.
반면, 챗봇 훈련에 사용되는 데이터 세트에는 두 사람 간의 사적인 대화가 많이 포함되어 있습니다.
본 연구에서는 아직 잘 연구되지 않은 언어 모델링으로 훈련된 챗봇의 은닉 상태의 개인 정보 유출에 대해 더 조사한다.
간단한 신경망을 통해 화자의 페르소나를 높은 정확도로 추론할 수 있음을 보여줍니다.
이를 위해 은닉 상태로부터 페르소나 유출을 보호하기 위한 효과적인 방어 목표를 제안합니다.
우리는 제안된 방어 목표가 attack accuracy를 37.6%에서 0.5%로 크게 줄일 수 있음을 입증하기 위해 광범위한 실험을 수행합니다.
한편, 제안된 목표는 언어 모델의 강력한 생성 능력을 보존합니다.

1 Introduction

소셜 챗봇은 사실적인 질문에 답하는 것부터 정서적인 교제를 보여주는 것까지 많은 애플리케이션에 혜택을 주기 위해 널리 사용되었습니다.
최근 대규모 사전 훈련된 언어 모델이 발전하면서 대규모 LM(생성 언어 모델)을 기반으로 하는 챗봇을 구축하게 되었습니다.
이러한 LM 기반 챗봇을 훈련시키기 위해 사적인 대화를 수집합니다. 불행히도 큰 언어 모델은 훈련 데이터를 기억하는 경향이 있으며 일부 개인 데이터는 모델에서 복구할 수 있습니다(Pan et al., 2020; Carlini et al., 2021).
이러한 암기 문제 외에도 단순한 훈련 목표에 대한 "과도한 학습"은 학습 과제와 간접적으로 관련된 민감한 속성을 드러낼 수 있습니다(Song and Shmatikov, 2020).
LM 기반 소셜 챗봇은 기본적으로 일반 LM의 개인 정보 문제와 오버러닝 문제를 상속합니다.

대화 상자에 대한 블랙박스 페르소나 추론 공격(4,332개 이상의 페르소나). GPT-2의 마지막 숨겨진 상태를 기반으로 하는 발언의 모든 표현은 방어 없이("LM에 대한 공격" 열) 방어와 함께("방어된 LM에 대한 공격" 열) 공격을 받습니다. 모델이 관찰된 표현을 기반으로 화자의 페르소나를 예측할 수 있다면 성공적인 공격으로 간주합니다. 그렇지 않으면 실패합니다. 실제로 모델을 배포할 때 인코딩된 발언을 전혀 드러내지 않는 강력한 모델이 예상됩니다.

예를 들어, 그림 1과 같이 미세 조정된 GPT-2를 LM 기반 소셜 챗봇의 인코더 및 디코더로 사용할 때 각 발화의 학습된 표현을 공격자가 얻을 수 있다면,
그런 다음 공격자는 표현을 기반으로 페르소나 정보를 예측하는 분류기를 구축할 수 있습니다.
예에서 볼 수 있듯이 14개의 발화 중 5개의 발화에 대해 공격자는 페르소나를 성공적으로 예측할 수 있으며, 이는 사용자(발화의 화자)가 페르소나 정보 공개를 선호하지 않는 경우 해로울 수 있습니다.
따라서 실제로 이러한 종류의 챗봇을 실제 응용 프로그램에 배포할 때 먼저 모델에서 개인 정보가 누출되지 않도록 해야 합니다.
LM 기반 소셜 챗봇의 개인 정보 문제를 체계적으로 연구하기 위해서는 몇 가지 과제가 있습니다.

첫째, LM이 공개하는 개인 정보의 양을 정량화하는 데 사용할 수 있는 기존 데이터가 없습니다.
둘째, 민감한 정보를 얻기 위해 발화 수준 표현을 공격하는 방법을 보여주는 기존 작업이 없습니다.
셋째, 페르소나 추론 공격을 방어할 수 있는 기존 LM 기반 챗봇이 없었고 알려진 페르소나 속성과 알려지지 않은 페르소나 속성을 모두 보호하는 방법을 보여주는 연구도 없습니다.

이 문서에서는 위의 문제를 해결하기 위해 미세 조정된 GPT-2를 챗봇으로 사용합니다.
먼저 PersonaChat 데이터 세트의 해당 발화와 페르소나를 정렬하여 데이터 세트를 수집합니다(Zhang et al., 2018).
그런 다음 LM 기반 챗봇이 화자의 페르소나를 드러내는 "오버러닝"이 발생할 수 있음을 보여줍니다.
발화 수준 임베딩에 대한 블랙박스 페르소나 추론 공격을 수행하기 위해 단일 외부 MLP(다층 인식) 공격자 모델을 구축합니다.
챗봇의 매개변수에 액세스할 수 없는 공격자 모델은 4,332개의 페르소나에 대해 37.59%의 정확도로 화자의 페르소나를 유추할 수 있습니다.
공격자 모델의 높은 정확도는 발화 수준 임베딩이 화자의 사적인 페르소나 속성을 드러내는 잠재적인 취약성을 의미합니다.
따라서 이러한 과잉학습 문제를 해결하기 위한 훈련 알고리즘의 개선이 필요하다.
마지막으로 이러한 블랙박스 공격을 방지하기 위해 GPT-2에 방어 학습 전략을 적용합니다.
GPT-2를 훈련시키고 공격자의 페르소나 추론 정확도를 0.53%로 낮추기 위한 추가 방어 목표로 제안된 KL 발산 손실(KL 손실)과 상호 정보 손실(MI 손실)(Song et al., 2019)을 결합합니다.
우리의 기여는 다음과 같이 요약될 수 있습니다:

1): To the best of our knowledge, we are the first to disclose and analyze the persona inference attack for LM-based chatbots and treat it as a privacy risk.
2): We propose an effective defensive training algorithm to prevent dialog representations from leaking personas of the corresponding speakers by uniform distribution approximation and mutual information minimization.
3): We conduct extensive experiments to quantify both privacy and utility of proposed defense mechanisms. Besides solving the persona leakage issue, the proposed training algorithm has nearly no negative influence on utility.

2 Related Work

3 Attacking on Language Models

이 섹션에서는 GPT-2에 대한 블랙박스 페르소나 추론 공격과 방어 전략을 설명합니다.
3.1절에서 우리는 먼저 문제 공식을 제공합니다.
그런 다음 섹션 3.2에서 공격에 대해 설명합니다.

3.1 Problem Formulation

사적인 대화 D에 대해 사전 훈련된 GPT-2 기반 챗봇 f이 있다고 가정합니다.
챗봇을 훈련하는 데 언어 모델링만 사용됩니다.

여기서 f는 주어진 발화 u = {w0, w1, ..., w|u|−1} 및 이전 컨텍스트 c가 있는 LM 기반 챗봇을 나타냅니다.

adversary는 n개의 대화가 있는 외부 주석 대화 데이터 세트 Da = {(U1, s1),(U2, s2), ...,(Un, sn)} 하나를 소유합니다.

여기서 Ui는 i번째 대화의 발화 목록{ui1, ui2, ..., uini}을 나타내고 si는 해당 발화에 대한 민감한 페르소나 {si1, si2, ..., sini}의 목록에 해당합니다.

각 페르소나 skj는 사전 정의된 사전 및 0 ≤ skj ≤ C − 1에 따라 해당 페르소나에 매핑될 수 있는 정수이며 여기서 C는 사전 정의된 페르소나 속성의 총 수입니다.
adversary의 목표는 발화의 임베딩 f(u)에서 화자의 페르소나 s를 추론하는 것입니다.

여기서 u와 s는 모든 발화 및 해당 페르소나 레이블을 나타냅니다.

3.2 Black-box Persona Inference Attack

페르소나 추론 공격은 supervised classification task으로 볼 수 있습니다.
블랙박스 공격 설정의 경우, 공격자는 공격자의 입력 임베딩에 대한 액세스 권한이 있는 대상 대화 모델 f에만 쿼리할 수 있으며 모델 매개변수 θf에 액세스하거나 수정할 수 없습니다.
그림 2의 왼쪽 부분과 같이 공격자는 외부 데이터 Da와 대화 모델 f를 사용하여 공격자 모델 A를 구축하려고 합니다.

방어가 없는 공격(왼쪽)과 방어가 있는 공격(오른쪽)의 시나리오. GPT-2의 훈련 단계는1로 표시되고 공격 단계는2로 표시됩니다. 언어 모델링과 방어자 목표는 모두 GPT-2 모델을 최적화하기 위해 방어를 위해 공동으로 훈련됩니다. GPT-2의 훈련 단계 1이 종료되면 GPT-2의 파라미터가 모두 동결된 후 공격 단계 2가 시작됩니다. 방어자는 공격자와 동일한 아키텍처를 공유하고 Lkl과 Lmi를 방어 목표로 사용합니다.

페르소나 예측자의 출력 A(f(u))는 C 페르소나 속성에 대한 추정 확률 분포입니다.
손실 함수 LA는 다음과 같이 공식화할 수 있는 예측 분포와 정답 분포 간의 교차 엔트로피를 활용합니다.

여기서 CE는 페르소나 레이블 skj와 A(f(ukj)) 간의 교차 엔트로피 손실을 나타냅니다.

잘 수행된 페르소나 예측자 A는 큰 개인 정보 위협을 일으킬 수 있습니다.
MLaaS(Machine Learning as a Service)의 경우 A를 적용하여 애플리케이션 프로그래밍 인터페이스에 대한 메시지 가로채기(man-in-the-middle) 공격을 수행할 수 있습니다.
또한, 원시 데이터가 보호되고 전송 채널이 안전하더라도 호기심 많은 서비스 제공자는 공격자 A를 훈련시켜 서비스 사용자의 페르소나를 수집할 수 있습니다.

4 Defense Learning Strategies

수학식 1의 LM 교육 목표는 챗봇의 효용만 고려합니다.
이후의 실험 섹션에서 LM이 심각한 과잉 학습 문제를 가져온다는 것을 보여줍니다.
이상적으로는 페르소나 추론 공격에 대한 최적의 개인 정보 보호 챗봇을 달성하기 위해 공격자 모델 A의 확률 분포가 균일 분포에 가까워야 합니다.
즉, 공격자는 사후 추정 A(f(u))에서 추론 정확도를 향상시킬 수 없으며 정확도는 페르소나 속성에 대해 무작위 추측을 하는 것보다 낫지 않습니다.
또한 프라이버시에 대한 제약은 챗봇의 강력한 생성 능력을 유지하기 위해 유틸리티에 약간의 저하가 있어야 합니다.
적이 무작위 추측보다 더 나은 결과를 얻을 수 없다는 직관에 따라 4.1절에서 페르소나 예측자의 추정 분포를 평평하게 하는 것을 목표로 하는 KL 손실을 제안합니다.
챗봇의 숨겨진 상태 f(u)와 개인 페르소나 속성 s 간의 상호 정보를 최소화하는 것을 기반으로 섹션 4.2에서 MI 손실을 제안합니다.
마지막으로 섹션 4.3에서 전체 교육 목표를 보여줍니다.

4.1 KL Loss

KL 손실은 A(f(u))와 균일 분포 사이의 Kullback-Leibler 발산을 최소화하는 것을 목표로 합니다.
A(f(u)) 분포를 평평하게 하여 공격자가 공격자 모델 A를 훈련시킨 후 유용한 지식을 얻을 수 없도록 합니다.
균일 분포와 A(f(u)) 간의 KL 발산은 다음과 같이 공식화될 수 있습니다.

여기서 UNI는 균일 분포를 나타내고 k는 C 레이블의 k번째 페르소나 레이블을 나타냅니다.
A: 페르소나 예측자
u: 발화
A(f(u))는 개인 페르소나속성을 예측하는 것이다.
즉 A(f(u))가 균일분포가 되도록 학습을 하겠다는 것이다.
adversarial training과 비슷한 느낌인듯?

최적화를 위해 constant 항과 로그(Mireshghallah et al., 2021)를 생략하여 다음 손실 함수를 얻을 수 있습니다.

즉 f(u)에서 label k가 되는 가능성이 똑같게 loss을 구한다.

그러나 defenders의 관점에서는 attacker 모델 A와 해당 매개변수에 액세스할 수 없습니다.
대신, 그들은 가짜 공격자로서 자신의 페르소나 예측기를 구축할 수 있습니다.
보다 구체적으로, 데이터 세트 D' 및 페르소나 예측자 Ap에 주석을 달기 위해 적을 모방할 수 있습니다.
그러면 KL 손실은 다음과 같이 됩니다.

여기서 챗봇 θf 및 가짜 공격자 θAp의 매개변수는 KL 손실을 통해 업데이트됩니다.
직관은 챗봇을 가짜 공격자와 함께 훈련시켜 공격자 모델의 분포를 평평하게 하여 모델 과잉 학습을 방지하는 것입니다.
살짝 헷갈리는데, 아마 A가 학습된 페르소나 예측자인데, A가 attacker이고 이걸 바로 학습해버리면 A가 페르소나 예측을 못하게 학습하는거지 모델 f가 학습되는게 아니다.
그래서 A와 같은모델인 Ap인 defender을 두고, 이거를 통해 f을 학습할때 loss에 넣어준다? (그림에서 step 1)
그럼 A는 어따쓰냐? --> LM이 학습되고 나서 추후 사용? (그림에서 step 2)

4.2 MI Loss

프라이버시 제약은 숨겨진 표현이 페르소나 속성을 드러내서는 안 된다는 것을 요구합니다.
다시 말해서, 모든 발화 u와 발화 u 뒤에 있는 페르소나 s가 주어지면 f(u)와 s 사이의 상호 정보를 최소화하려고 합니다.

Song et al. (2019) 및 Li et al. (2020), 상한은 다음과 같이 공식화될 수 있습니다.

여기서 p(s)는 s에 대한 임의의 분포일 수 있으며 q(x)는 θf로 매개변수화된 모델 f의 확률 분포를 나타내고 f(u)는 조건부 분포 q(f(u)|x, s에서 샘플링된 것으로 가정합니다. ).
그러나 q(s|f(u))는 추정하기 어렵습니다.

대신 pΨ(s|f(u))를 사용하여 KL 발산을 최소화하여 q(s|f(u))를 근사하고 다음과 같은 하한을 얻을 수 있습니다(Song et al., 2019).

Therefore, our objective in Equation 6 can be formulated as an adversarial training objective:

log p(s) is independent of f(u), and we may leave this term out in Equation 9:

그러면, 수학식 10은 f(u)로부터 s를 유추하는 적 pΨ와 페르소나 유추 공격으로부터 s를 보호하기 위해 θf를 수정하는 방어자 간의 적대적 게임을 예시한다.
적대적 훈련은 자연어 처리에서 민감한 특징을 보호하기 위해 널리 사용됩니다.
pΨ를 학습하기 위해 softmax 활성화와 함께 페르소나 예측 모델 Ap를 사용하여 방어자에 대한 최종 목표를 얻습니다.
We can rewrite Equation 11 into two losses: Lmi1(ukj , skj ; θAp ) = CE(Ap(f(ukj )), skj ) and Lmi2(ukj , skj ; θf ) = −CE(Ap(f(ukj )), skj ) for the fake adversary and the chatbot respectively. Then our MI loss can be formulated as:

where λ0 controls the ratio between two the fake attacker Ap and the defensed chatbot f.

4.3 Overall Objective

그림 2의 오른쪽 부분은 블랙박스 공격에 대처하기 위해 챗봇을 훈련시키는 방법을 보여줍니다.
방어자에 대한 손실 함수는 KL 손실, MI 손실 및 LM 손실을 결합합니다.
MI 손실의 가짜 적 목표는 Ap 분포를 평평하게 만들려는 KL 손실을 위반합니다.
제안된 손실은 KL 손실에 더 많은 가중치를 할당합니다.

where λ1 and λ2 are hyper-parameters and λ1 ≥ 10λ2 to flatten the distribution of Ap.

전체 손실 L로 훈련된 챗봇은 여전히 블랙박스 공격 시 A의 훈련 과정을 방해할 수 없지만 L은 f의 페르소나 오버러닝 문제를 완화하여 이러한 페르소나 추론 공격을 해결하는 것을 목표로 합니다.

6 Conclusion

본 논문에서는 LM 기반 챗봇이 화자의 페르소나를 드러내는 경향이 있음을 보여주고 GPT-2의 과학습을 방지하기 위한 효과적인 방어 목표를 제시한다.
효용성이 떨어지는 다른 작업들과 달리 우리의 방어 학습 전략은 LM 기반 챗봇의 강력한 생성 능력에 해를 끼치 지 않습니다.
우리는 개인 정보 보호와 유용성을 모두 평가하기 위해 광범위한 실험을 수행합니다.
제안된 방어 학습 전략의 견고성을 입증하기 위해 다양한 설정에서 블랙박스 페르소나 추론 공격을 수행합니다.
또한 제안된 방어 학습 전략이 유용성을 유지한다는 것을 보여주기 위해 자동 메트릭을 사용합니다.
향후 작업을 위해 공격자 모델의 분포를 평면화하는 작업을 제안합니다.

Reference

https://aclanthology.org/2022.naacl-main.429.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-156, You Don’t Know My Favorite Color: Preventing Dialogue Representations from Revealing Speakers’ Private Personas, NAACL 2022

0 Abstract

1 Introduction

2 Related Work

3 Attacking on Language Models

3.1 Problem Formulation

3.2 Black-box Persona Inference Attack

4 Defense Learning Strategies

4.1 KL Loss

4.2 MI Loss

4.3 Overall Objective

6 Conclusion

댓글

댓글 쓰기