NL-187, Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning, ACL 2023

◼ Comment

  • 논문을 선택할 때는, LLM에서 내 원하는 데이터를 추출하는 방법의 노하우를 말하는것을 기대하고 봤음
    • 내용은 그런것은 아니고, LLM을 학습시킨 데이터를 역으로 추출하는 방법에 대해 말하는 것이다.
  • 먼저 LLM은 여기서 GPT2-Neo들을 의미한다.
    • 이 LLM을 학습시킨 데이터 풀이 있을 것이다.
    • 이 중의 일부를 Strain, Stest을 샘플링한다.
  • Attack
    • LLM을 학습시킨 데이터를 추출하는 과정
    • Strain 데이터 활용.
    • 시퀀스의 앞부분은 prefix, 뒷부분은 suffix로 생각하면 된다.
    • prefix 앞부분에 attack prompt을 넣어서 suffix을 생성하도록 prompt을 학습시킨다. (LLM은 고정)
    • 그러면 Stest로 테스트해봤을 때, baseline보다 훨씬더 suffix을 잘 추출한다는 것을 보여준다.
    • baseline은 그냥 LLM의 입력으로 prefix만 넣는 것이라고 생각하면 된다.
  • Defense
    • LLM의 학습 데이터를 추출하려고 하는 시도를 방어하는 과정
    • black-box 공격에 대한 defense로 가정한다.
      • 블랙박스 공격이란, 공격하는 모델에 접근할 수 없는 경우를 의미한다.
      • 따라서 논문에서 제안한 attack 방법은 이에 해당하지 않고, baseline attack에 대한 실험만 보여준다.
    • defense prompt를 prefix 앞부분에 넣어서 suffix을 적당히만 생성하도록 학습시킨다.
      • 여기서 만약 loss을 -Cross entropy을 생각하면 prefix에 대해 suffix을 제대로 못생성하게 하지만, 그렇게 되면 너무 이상한 suffix을 생성하게 될 것이다.
      • 따라서 적당한 theta값이내로 loss가 움직이도록 CE, -CE을 활용한다.
    • 결과적으로 baseline에 대해 attack을 잘 방어하는 모습을 보여준다.
  • 이러한 연구도 있다는 것을 알게 되었다.
    • 지난번에 model embedding으로부터 model input을 역으로 복원하는 것과 살짝 비슷한 느낌이다.
    • 물론 입력, 출력은 다르지만 모델의 입력이 무엇인가?에 대해 역으로 시도해보는 연구들이 있나보다.

0 Abstract

  • 대규모 언어 모델(Large Language Models, LLM)은 훈련 데이터의 상당 부분을 기억하고 있는 것으로 알려져 있습니다. 
  • 이 기억된 내용 중 일부는 모델에 질의하는 것만으로 추출 가능하며, 이는 개인 정보 보안 위험을 야기할 수 있습니다. 
  • 우리는 LLM의 기억된 내용의 추출 비율을 제어하기 위해 프롬프트 튜닝을 사용하는 새로운 접근 방식을 제시합니다. 
  • 우리는 추출 비율을 증가시키는 공격과 감소시키는 방어에 해당하는 두 가지 프롬프트 훈련 전략을 제시합니다. 
  • 우리는 GPT-Neo 패밀리의 모델을 사용하여 공개 벤치마크에서 우리의 기술의 효과를 입증합니다. 
  • 13억 파라미터 GPT-Neo 모델의 경우, 우리의 공격은 기준에 비해 추출 비율을 9.3 퍼센트 포인트 증가시킵니다. 
  • 우리의 방어는 사용자 지정 하이퍼파라미터를 통해 다양한 개인 정보-유틸리티 트레이드오프를 달성하기 위해 조정할 수 있습니다. 
  • 우리는 기준에 비해 최대 97.7%의 추출 비율 감소와 16.9%의 perplexity 증가를 달성합니다.

1 Introduction

  • large PLM은 흔히 많은 크라우드소스 코퍼스로부터 학습되고, 다양한 다운스트림 NLU tasks을 통해 SoTA을 달성하는 백본으로써 사용되기 때문에 많은 관심을 받고 있다.
  • 그러나 그들은 적절하게 만들어진 프롬프트를 사용하여 추출할 수 있는 훈련 데이터의 상당 부분을 기억하는 것으로 나타났습니다.
    • 이러한 추출은 교육 데이터 제공자에게 개인 정보 위험을 초래합니다.
    • 지식을 학습하는게 메모라이징일 수 있겠다..
  • 이 문맥에서는 개발자들이 LLMs (Large Language Models)에서 기억된 예시들의 추출 가능성을 조절할 수 있는 방법들이 매우 가치있게 여겨집니다. 
    • 예를 들어, 추출 비율을 증가시키는 방법들은 적대적인 환경에서의 공격에 해당하며, 이는 개발자들에게 개인정보 리스크를 분석할 수 있는 능력을 제공합니다. 
    • 반면에 추출 비율을 감소시키는 방법들은 방어라고 불리며, 이러한 공격으로부터 보호하기 위해 유용합니다. 
    • 역사적으로, 방어 방법들은 계산량이 많은 특징이 있습니다.
    • 공격적인 프롬프트는 개인정보를 유도하고, 방어적인 프롬프트는 개인정보가 추출안되는 방식인듯?
  • 본 연구에서는 연속적인 soft-prompts (이하 간단히 프롬프트로 지칭함)를 훈련시키고, 이를 LLM(Large Language Model) 내로 외부 신호를 전달하는 방법으로 활용하여 기억된 데이터의 추출을 조절합니다. 
    • 모델 가중치를 고정하고 훈련된 프롬프트만을 생성 조절에 사용합니다.
  • 첫째, 우리는 attack 환경에서 프롬프트를 훈련하고 모델 내 추출 가능한 기억 콘텐츠의 범위를 연구합니다.
  • 둘째, 우리는 defense 환경을 탐색하며, 사용자 지정 하이퍼파라미터를 통해 추출 비율을 감소시키고 다양한 개인정보-유틸리티 균형을 달성하는 프롬프트를 생성합니다.
  • 원본 모델 가중치가 두 설정 모두에서 고정되므로, 우리의 방법은 계산 효율적입니다.
  • 우리가 아는한, 우리의 연구는 LLM의 개인정보 분석 및 완화를 위해 지시적인 프롬프트의 사용을 처음으로 적용한 것입니다. 
  • 우리는 실험을 위해 개발한 코드를 공개했습니다.

2 Background and Related Work

  • 이전 연구에서는 LLMs(Large Language Models)가 메모리제이션을 보여주며, 추출 가능성을 측정하는 다양한 방법들을 탐구했습니다 (Carlini 등, 2018, 2020, 2022). 
  • 차별적으로 개인정보 보호 훈련(Differentially-private training) (Dwork, 2006; Abadi 등, 2016)은 이러한 리스크를 완화하는 데 사용되는 인기 있는 방법입니다. 
  • 그러나 이 방법은 모델 유틸리티를 감소시키고 LLM의 재훈련을 필요로 하며, 무거운 계산 부담으로 인해 실행이 어려울 수 있습니다.
  • 언어 모델에 대한 지시적인 프롬프트의 사용은 다양하게 연구되었는데, 이는 사전 훈련 중에 사용되는 경우(Raffel 등, 2020), 두 번째 단계 훈련으로 사용되는 경우(Sanh 등, 2022; Wei 등, 2021), 그리고 모델 출력을 안내하기 위해 추론 중에 사용되는 경우(Brown 등, 2020)를 포함합니다. 
  • 세 번째 범주 내에서, 수동 프롬프트 엔지니어링을 개선하기 위해 연구자들은 이산형 자연어 프롬프트를 학습하는 방법(Shin 등, 2020), 이를 마이닝하는 방법(Jiang 등, 2020), 혹은 자연어를 무시하고 연속적인 프롬프트를 학습하는 방법(Li와 Liang, 2021; Lester 등, 2021)을 구현했습니다.
  • 우리의 연구는 외부 신호를 모델로 전달하여 원하는 모델 동작을 유발하는 방법으로 연속적인 프롬프트를 활용합니다 (즉, 개방형 언어 생성에서 더 적거나 더 많은 메모리제이션 데이터를 유발하는 것으로 각각 추출 공격과 방어에 대응됩니다).

3 Method 

  • Prompt-tuning 은 prefix embedding에 프롬프트를 추가하고 훈련 손실에 접근하는 것을 필요로 합니다 (그림 1 참조). 
  • 이러한 제약 하에서, 우리는 target model parameters에 접근하는 white-box attack과 대상 모델과 API를 통해 상호 작용하는 블랙박스 방어를 탐구합니다. 
  • 따라서 우리는 우리 자체의 공격에 대한 방어를 테스트하지 않습니다.
  • [prefix || suffix]가 훈련 세트에 있는 시퀀스라고 가정하면, prefix의 길이가 k 토큰인 경우 Carlini은 suffix를 k-extractable 가능하다고 정의했습니다. 
  • 여기서 모델은 해당 길이 k의 prefix로 프롬프트되어 suffix를 정확하게 생성합니다. 
  • 우리의 white-box attack은 k-extractable 가능한 시퀀스의 수를 증가시키는 것을 목표로 하며, 우리의 black-box defense는 API를 통해 prefixes를 제출하는 공격자가 추출할 수 있는 k-추출 가능한 시퀀스의 수를 감소시키는 것을 목표로 합니다.

3.1 Attack

  • 공격 설정에서 우리는 공격자가 대상 모델의 training 세트에서 샘플링된 [ prefix || suffix ] 시퀀스 집합 Strain을 가지고 있다고 가정합니다. 
  • 그들의 목표는 Stest로 표시되는 상이한 prefixes 집합에 해당하는 suffixes를 추출하는 것입니다. 
    • Stest: For simplicity, we assume all prefixes are k-length. This can easily be ensured by padding or truncating different length prefixes if needed in a real-world setting.
  • 이를 위해 공격자는 먼저 프롬프트를 초기화합니다. 
    • 여기서 프롬프트는 l × e 매개변수의 연속적인 집합입니다. 
    • 여기서 e는 모델의 임베딩 size이고, l은 프롬프트의 길이로, 이는 공격자가 결정하는 하이퍼파라미터입니다. 
  • 프롬프트는 Strain에 대해 훈련되어 suffixes의 올바른 생성을 용이하게 합니다. 
  • 이를 위해 먼저 프롬프트를 prefix의 임베딩에 덧붙이고 결합된 임베딩을 생성을 위해 모델을 통과시킵니다. 
  • 그런 다음 모델 파라미터를 고정한 상태에서 프롬프트에 대한 손실 목적 함수 (아래 참조)를 프롬프트에 대해 최소화합니다. 
  • 우리는 두 가지 손실 목적 함수를 탐구합니다. 
    • 첫 번째는 causal language modeling (이하 CLM)이며, 여기서 전체 시퀀스에 대한 교차 엔트로피 손실을 최소화합니다 (Radford 등, 2019). 
    • 두 번째로, 프롬프트는 suffixes에 대한 교차 엔트로피 손실만을 최소화하여 최적화됩니다. 이 경우 훈련은 suffix 토큰에 대해 모델이 벌점을 받는 추론 작업과 일치하도록 정렬되어 있습니다. 따라서 우리는 이것을 aligned CLM이라고 참조합니다. 
  • 추론 중에는 학습된 프롬프트가 Stest의 각 접두어 임베딩에 덧붙여지며, 결합된 임베딩이 생성을 위해 모델을 통과됩니다 (그림 1 참조).
  • LLM을 학습시킨 학습데이터의 일부를 샘플링한거시 Strain이라고 하자.
    • 여기서 학습된 LLM은 고정시킨다.
    • 여기서 Strain에는 접근이 가능하다고 가정한다.
    • attack의 목적은 특정 프롬프트를 추가해서, prefix에 해당하는 suffix을 잘 추출하는 프롬프트를 찾는 것이다.
    • 즉 특정 프롬프트(attack prompt) & prefix을 넣었을 때 suffix가 고대로 나오게끔 attack prompt을 학습시키는 것이다.
    • 학습 방법은 그림1처럼, soft prompt + prefix embedding을 LLM에 넣어서 suffix가 나오도록 학습시킨다.
    • loss는 suffix부분만 학습되도록 하는 부분과 전체 시퀀스가 학습되도록 2개에 대해 실험한다고 한다.

3.2 Defense

  • 방어 설정에서 방어자(API 소유자)는 프롬프트를 훈련하고 이를 들어오는 prefixes 앞에 덧붙여서 모델에 전달합니다. 
  • 우리의 알고리즘은 machine-unlearning literature 및 membership inference 및 backdoor attacks에 대한 방어에서 영감을 받았습니다. 
  • 우리는 학습 임계값 θ이라는 하이퍼파라미터를 도입하였습니다. 
    • 프롬프트 훈련 중 (3.1절 참조), 손실이 θ보다 작을 경우에는 프롬프트를 벌점을 주기 위해 gradient ascent을 수행합니다. 
    • 손실이 θ보다 크면 프롬프트에 대한 gradient descent를 평소와 같이 수행합니다. 
    • 평균 에포크 손실이 θ 이상이 될 때까지 훈련을 중지합니다. 
    • 이를 통해 우리는 훈련 손실을 효과적으로 제어하고 이를 θ 주변에 안정화시킬 수 있습니다. 
  • 이 과정을 통해 모델의 어떤 부분도 다시 훈련하지 않고도 다양한 개인 정보 보호 및 유틸리티 균형을 효율적으로 달성할 수 있습니다. 
  • θ를 탐색하기 위해 초기 값은 모델 훈련 손실보다 약간 높게 설정하고 원하는 성능이 달성될 때까지 0.25씩 증가시킵니다.
  • Defense는 attack과 다르게 prefix에 해당하는 suffix가 추출되지 않도록 하는 것이다.
    • defense는 외부에서 이 모델의 학습데이터를 추출하려고 할 때, defense prompt을 넣어서 이를 방해하게 하기 위한 컨셉이라고 보면 된다.
    • defense 프롬프트는, attack loss의 역의 방향으로 학습되면 될 것이다.
    • 하지만 (-attack loss)을 사용하지 않고, loss을 θ안에 가두는 방식을 사용한다. 
    • 아마 (-attack loss)로만 학습하면 PPL이 이상하게 학습될 것이기 때문에 그럴 듯
    • 즉 어느정도 suffix을 추출되도록 gradient descent로 학습시키다가 더이상 학습되지 않게 gradient ascent을 수행하는 방식이다.
    • 기존의 연구를 참고하여서 이렇게 했다고하고, 이게 다양한 개인 정보 보호 및 유틸리티 균형을 효율적으로 달성한다고 한다.
    • θ는 여러 실험을 통해 찾아낸 듯 하다.

4 Experiments

  • 우리의 실험에서는 GPT-Neo 모델의 125M 및 1.3B 파라미터 변형을 사용합니다.
    • 이들은 Pile 데이터셋에서 CLM을 사용하여 훈련된 공개적인 디코더 전용 트랜스포머 모델입니다.
  • 우리는 Strain과 Stest를 Language Model Extraction Benchmark 데이터셋(Google-Research)에서 추출합니다.
    • 이 데이터셋은 각 시퀀스가 prefix와 suffix로 분할된 Pile의 훈련 분할에서 샘플링된 15,000개의 시퀀스를 포함합니다.
    • 기본 평가 설정에서 prefix와 suffix는 모두 50개의 토큰으로 구성됩니다.
    • 14,000개의 샘플로 무작위로 구성된 훈련/테스트 분할을 보장합니다.
    • Strain은 target model을 학습시킨 데이터의 일부라고 했는데, Stest도 같은 데이터세트에서 샘플링한 것을 보니, Stest도 학습시킨 데이터의 일부라고 생각하면 될듯
  • 우리의 선택한 평가 지표는 Exact extraction rate 입니다. 
    • 이는 테스트 세트에서 올바르게 생성된 suffix의 비율을 나타냅니다 (즉, 생성된 접미어의 모든 토큰이 실제 접미어와 일치하는 경우).
  • 우리는 추가로 fractional extraction rate 을 논의하고 부록 A에서 결과를 제시합니다.
  • 베이스라인으로는 Carlini의 attack analyzed을 사용합니다. 
    • 이 공격은 prefixes를 모델에 입력하고 greedy decoding으로 suffixes를 생성하는 것으로 구성됩니다.
    • 그냥 일반적으로 greedy하게 생성하는 것을 말하는 듯
  • 우리의 작업을 제외하고는 이 설정에서 이 attack analyzed이 유일한 추출 공격입니다.
  • 우리의 훈련 설정은 부록 B에서 논의됩니다. 
  • 모든 실험은 각 실행에서 새로운 무작위 훈련/테스트 분할을 사용하여 5번 반복됩니다.

4.1 Attack

  • 우리는 공격의 성능을 여러 가지 차원에서 탐색합니다:
    • prompt length, suffix size, prefix size, and beam size. 
  • 우리는 빔 크기 실험을 제외하고 모든 경우에 greedy-decoding을 사용합니다.
  • Prompt Length 
    • 먼저, 우리는 기본 설정에서 (prefix와 suffix가 각각 50개의 토큰으로 구성된) 프롬프트 길이를 탐색합니다(도표 2-A1 및 2-A2). 
    • 우리는 CLM과 일치하는 CLM 모두를 사용하여 조정한 프롬프트가 모든 경우에 기준 모델 대비 개선되었음을 알 수 있습니다. 
    • 특히, aligned CLM이 가장 우수한 성능을 제공합니다. 
    • 이에 따라 우리는 다른 모든 실험과 방어에 대해 일치하는 CLM 목적을 사용하여 프롬프트를 훈련합니다. 
    • aligned CLM을 사용하여 125M 및 1.3B 모델의 추출률이 각각 25.8% 및 54.3%로 최고치를 기록했으며 (각각 8.9 및 9.3 백분율 포인트의 개선), 100개의 토큰으로 된 프롬프트 (파란색 선)로 이루어졌습니다. 
    • 추출률이 프롬프트 길이와 함께 증가하며, 프롬프트 길이 100 이후에는 포화되는 경향을 관찰합니다. 
    • 훈련 중에 테스트 손실이 증가하지 않아 과적합이 포화의 잠재적인 원인으로 제외되었습니다. 
    • 이는 우리의 목표에 따라 추출 목적으로 가치를 추가할 수 있는 프롬프트의 매개 변수 수에 최대 제한이 있다는 것을 시사합니다. 
    • 더 정교한 훈련 전략(더 나은 손실 함수 설계, 더 나은 프롬프트 초기화 등)은 더 나은 추출률을 낼 수 있을 것입니다.
    • 학습데이터를 추출할 수 있도록 학습된 prompt의 길이가 늘수록 성능이 좋아진다. (길이가 100넘어가면 saturation 된다. 성능이 떨어질수도)
    • aligned CLM > CLM이라고 한다.
    • 다른 테스크에서도 입력에 대해 타겟을 생성할 때, aligned CLM처럼 타겟 부분만 학습해보는 것도 의미가 있을 거 같긴 함.
  • Suffix Size 
    • 다음으로, 우리는 prefix 크기를 50으로 고정하고 suffix 크기를 변화시킵니다. 
    • 도표 2-B1 및 2-B2에서 보여지듯이, 추출률은 대략 지수 함수적으로 접미사 크기와 함께 감소합니다. 
    • 우리는 suffix 크기가 증가함에 따라 길이가 긴 프롬프트(≥ 20)가 baseline에 비해 더 큰 개선을 제공함을 알 수 있습니다. 
    • 예를 들어, 1.3B 모델을 사용하여 프롬프트 길이가 100(파란색 선)인 경우, suffix 크기 5에서 추출률이 5.3 percentage 포인트 증가하는 것을 관찰합니다. 
    • 반면에 suffix 크기 50에서는 증가율이 9.3 백분율 포인트입니다.
    • suffix가 길다는 것은 추출해야할 부분이 많다는 것.
    • 따라서 당연힌 suffix가 길어지면 성능이 떨어지는 것.
    • suffix가 길 때는 prompt가 baseline에 비해 제안한 모델의 좀 더 성능향상에 도움이 된다. (suffix가 길수록 성능차이가 벌어짐)
  • Prefix Size 
    • 다음으로, 우리는 suffix 크기를 50으로 고정하고 prefix 크기를 변화시킵니다. 
    • 도표 2-C1 및 2-C2에서 보여지듯이, 추출률은 대략 로그 함수적으로 증가합니다(카를리니 등, 2022와 유사). 
    • suffix 크기와는 반대로, 우리는 기준 모델과의 차이가 점점 감소하는 것을 관찰합니다. 
    • 이는 우리의 공격이 기준 모델에 비해 정보가 부족한 상대방(작은 prefix 크기)에게 혜택을 줄 수 있다는 것을 시사합니다.
    • prefix가 길어지면, 앞서 주어진 정보가 많기 때문에 복원이 더 잘된다.
    • 근데, prefix가 길어지면, baseline과 제안한 모델 성능차이가 줄어든다.
    • 이는 아마도 prefix로써 사전의 정보가 많이 제공되므로, prompt가 없어도 모델이 잘 추출할 수 있기 때문이 아닐까? 싶음
  • Beam Decoding 
    • 마지막으로, prefix와 suffix 크기가 각각 50 토큰인 기본 설정을 사용하고 빔 크기를 변화시킵니다 (빔 크기=1은 탐욕적 디코딩을 의미합니다). 
    • 결과는 도표 2-D1 및 2-D2에 나와 있습니다. 
    • 우리는 빔 크기를 1에서 5로 증가시킬 때 추출률이 전반적으로 증가하는 것을 관찰합니다. 
    • 그러나 빔 크기가 5보다 큰 경우 개선 사항이 고원이나 진동하는 경향이 있습니다. 
    • 1.3B 모델은 빔 크기를 증가시킴으로써 더 많은 이익을 얻으며, 150개의 프롬프트 길이로 20의 빔 크기에서 최고 추출률인 61.4%를 달성했습니다. 
    • 125M 모델의 최고 추출률은 100개의 프롬프트 길이와 15의 빔 크기에서 28.3%였습니다.

4.2 Defense 

  • 마지막으로, 우리는 우리의 black-box defense의 privacy-utility의 trade-off을 평가합니다.
  • 3장에서 언급한 대로, 우리의 방어는 black-box adversary를 대상으로 설계되었으며, 우리의 white-box attack에 대해 테스트할 수 없습니다.
    • black-box adversary: 공격자가 내부 모델을 알 수가 없는 상황
    • white-box attack: 공격자가 내부 모델을 아는 상황
    • 여기서 학습한 attack 방법은, 모델을 이용해서 학습된 공격 prompt이기 때문에, 이에 대해 평가할 수 없다는 것
  • 따라서 우리는 기준 모델 공격(4장)을 활용하여 개인 정보 보호를 측정합니다. 
  • 방어 설정에서는 더 긴 프롬프트가 가치를 더하지 않았으므로 길이가 1인 프롬프트를 사용합니다.
  • 우리는 생성된 suffixes의 PPL를 사용하여 모델의 유틸리티를 정량화하며, 3.1절과 마찬가지로 정확한 추출률을 사용합니다.
    • PPL을 측정하기 위해 Pile 데이터셋의 테스트 분할에서 무작위로 선택된 1천 개의 시퀀스 하위 집합을 사용하여 모델이 본 적 없는 데이터에서 PPL을 측정합니다.
  • 또한 Pile 데이터셋에서 훈련되지 않은 유사한 크기의 GPT2 모델과 비교하여 우리의 메트릭스를 비교합니다.
  • 우리의 전제는 비슷한 크기의 도메인 밖 모델과 비교했을 때 개인 정보 보호와 유틸리티 면에서 더 나은 성능이 있다면, 우리의 방어 메커니즘이 API 소유자에게 가치가 있다는 것입니다.
  • 표 1에서는 우리의 결과를 기본 평가 설정(prefix와 suffix가 각각 50개의 토큰으로 구성)을 사용하여 표시합니다.
  • 우리의 방어는 경쟁력 있는 PPL 값과 함께 낮은 추출률을 달성합니다.
  • 125M 모델의 경우, θ = 1.75에서 정확한 추출률이 baseline 대비 99.4% 감소하고 PPL이 25.3% 증가합니다.
  • 1.3B 모델의 경우, θ = 1에서 정확한 추출률이 baseline 대비 97.7% 감소하고 PPL이 16.9% 증가합니다.
  • 해당 크기의 GPT2 모델과 비교하여 낮은 PPL 값과 함께 낮은 추출률을 달성할 수 있는 능력은 우리의 방어가 효과적임을 증명하는 근거를 제공합니다.
  • 즉 defense prompt 학습에 사용되지 않은 Stest에 대해 평가
    • defense prompt는 길이에 따라 크게 차이가 없었다고 함. 그래서 길이가 1인 프롬프트를 사용함.
    • 생성된 suffix의 PPL 계산하여, 적절한 응답이 생성됐는지를 보는게 유틸리티라고 여기선 말하고
    • 정답 suffix와 비교하여 exact extraction을 봐서 얼마나 방어를 잘했는지를 본다.
    • 그 결과 괜찮은 PPL과 낮은 추출률을 달성한다고 함.
    • defense prompt가 없는 baseline에 비해 97.4%, 99% 만큼 추출률은 감소하고 PPL은 16.9%, 25%로 살짝 상승하여 안좋아짐
    • defense에 대해서는 자세한 분석은 하지 않은듯

5 Conclusion

  • 우리는 처음으로 프롬프트 튜닝을 활용하여 개방형 언어 생성 작업에서 Large Language Models (LLMs)로부터 기억된 데이터의 추출 가능성을 제어하는 노력을 제시합니다. 
  • 우리는 소위 '데이터 추출 공격'과 그에 대응하는 방어 기법을 개발하고, 다양한 환경에서의 성능을 보여줍니다. 
  • 우리의 공격은 정확한 추출 비율 측면에서 기준선을 일관되게 능가합니다. 
  • 또한, 우리의 방어 기법은 경쟁력 있는 개인 정보 보호 및 활용성의 균형을 제공하며, 민감한 콘텐츠로 훈련된 모델을 보유한 API 소유자들에게 혜택을 제공할 것입니다. 
  • 이러한 결과는 원본 모델 가중치를 변경하지 않고 효율적으로 달성되었습니다. 
  • 우리는 부록 C에서 미래 연구 방향을 상세히 설명합니다.

6 Limitations

  • 우리의 연구의 몇 가지 한계를 간단히 언급하고자 합니다. 
  • 첫째, 우리는 실험에서 하나의 데이터셋과 하나의 모델 패밀리만을 사용했습니다. 
    • 이는 현재 우리의 지식에 따르면 사용 가능한 벤치마크가 해당 데이터셋 뿐이기 때문입니다. 
    • 또한, 우리는 추출 메트릭스에만 집중했지만, 추출된 시퀀스에 대한 더 깊은 분석은 수행하지 않았습니다. 
    • 추출된 시퀀스의 세밀한 분석은 LLMs에서의 기억과 추출 이해에 중요한 통찰력을 제공할 수 있습니다. 
  • 마찬가지로, 우리는 프롬프트가 어떻게 수렴되는지 및 수렴 시점에서 설명 가능한 프롬프트를 생성하는지 분석하지 않았습니다. 
    • 이러한 분석은 예를 들어 aligned CLM이 포함된 교육 프롬프트가 basic CLM 설정보다 더 나은 성능을 발휘하는 이유에 대한 더 나은 통찰력을 제공할 수 있습니다.
  • 마지막으로, 우리의 방어 기법의 평가는 다운스트림 테스크에서 다른 유틸리티 메트릭(예: 정확도)을 측정함으로써 더 개선될 수 있다고 생각합니다.

Reference

댓글