◼ Comment

논문을 선택할 때는, LLM에서 내 원하는 데이터를 추출하는 방법의 노하우를 말하는것을 기대하고 봤음

내용은 그런것은 아니고, LLM을 학습시킨 데이터를 역으로 추출하는 방법에 대해 말하는 것이다.

먼저 LLM은 여기서 GPT2-Neo들을 의미한다.

이 LLM을 학습시킨 데이터 풀이 있을 것이다.
이 중의 일부를 Strain, Stest을 샘플링한다.

Attack

LLM을 학습시킨 데이터를 추출하는 과정
Strain 데이터 활용.
시퀀스의 앞부분은 prefix, 뒷부분은 suffix로 생각하면 된다.
prefix 앞부분에 attack prompt을 넣어서 suffix을 생성하도록 prompt을 학습시킨다. (LLM은 고정)
그러면 Stest로 테스트해봤을 때, baseline보다 훨씬더 suffix을 잘 추출한다는 것을 보여준다.
baseline은 그냥 LLM의 입력으로 prefix만 넣는 것이라고 생각하면 된다.

Defense

LLM의 학습 데이터를 추출하려고 하는 시도를 방어하는 과정
black-box 공격에 대한 defense로 가정한다.

블랙박스 공격이란, 공격하는 모델에 접근할 수 없는 경우를 의미한다.
따라서 논문에서 제안한 attack 방법은 이에 해당하지 않고, baseline attack에 대한 실험만 보여준다.

defense prompt를 prefix 앞부분에 넣어서 suffix을 적당히만 생성하도록 학습시킨다.

여기서 만약 loss을 -Cross entropy을 생각하면 prefix에 대해 suffix을 제대로 못생성하게 하지만, 그렇게 되면 너무 이상한 suffix을 생성하게 될 것이다.
따라서 적당한 theta값이내로 loss가 움직이도록 CE, -CE을 활용한다.

결과적으로 baseline에 대해 attack을 잘 방어하는 모습을 보여준다.

이러한 연구도 있다는 것을 알게 되었다.

지난번에 model embedding으로부터 model input을 역으로 복원하는 것과 살짝 비슷한 느낌이다.
물론 입력, 출력은 다르지만 모델의 입력이 무엇인가?에 대해 역으로 시도해보는 연구들이 있나보다.

0 Abstract

대규모 언어 모델(Large Language Models, LLM)은 훈련 데이터의 상당 부분을 기억하고 있는 것으로 알려져 있습니다.
이 기억된 내용 중 일부는 모델에 질의하는 것만으로 추출 가능하며, 이는 개인 정보 보안 위험을 야기할 수 있습니다.
우리는 LLM의 기억된 내용의 추출 비율을 제어하기 위해 프롬프트 튜닝을 사용하는 새로운 접근 방식을 제시합니다.
우리는 추출 비율을 증가시키는 공격과 감소시키는 방어에 해당하는 두 가지 프롬프트 훈련 전략을 제시합니다.
우리는 GPT-Neo 패밀리의 모델을 사용하여 공개 벤치마크에서 우리의 기술의 효과를 입증합니다.
13억 파라미터 GPT-Neo 모델의 경우, 우리의 공격은 기준에 비해 추출 비율을 9.3 퍼센트 포인트 증가시킵니다.
우리의 방어는 사용자 지정 하이퍼파라미터를 통해 다양한 개인 정보-유틸리티 트레이드오프를 달성하기 위해 조정할 수 있습니다.
우리는 기준에 비해 최대 97.7%의 추출 비율 감소와 16.9%의 perplexity 증가를 달성합니다.

1 Introduction

large PLM은 흔히 많은 크라우드소스 코퍼스로부터 학습되고, 다양한 다운스트림 NLU tasks을 통해 SoTA을 달성하는 백본으로써 사용되기 때문에 많은 관심을 받고 있다.
그러나 그들은 적절하게 만들어진 프롬프트를 사용하여 추출할 수 있는 훈련 데이터의 상당 부분을 기억하는 것으로 나타났습니다.

이러한 추출은 교육 데이터 제공자에게 개인 정보 위험을 초래합니다.
지식을 학습하는게 메모라이징일 수 있겠다..

이 문맥에서는 개발자들이 LLMs (Large Language Models)에서 기억된 예시들의 추출 가능성을 조절할 수 있는 방법들이 매우 가치있게 여겨집니다.

예를 들어, 추출 비율을 증가시키는 방법들은 적대적인 환경에서의 공격에 해당하며, 이는 개발자들에게 개인정보 리스크를 분석할 수 있는 능력을 제공합니다.
반면에 추출 비율을 감소시키는 방법들은 방어라고 불리며, 이러한 공격으로부터 보호하기 위해 유용합니다.
역사적으로, 방어 방법들은 계산량이 많은 특징이 있습니다.
공격적인 프롬프트는 개인정보를 유도하고, 방어적인 프롬프트는 개인정보가 추출안되는 방식인듯?

본 연구에서는 연속적인 soft-prompts (이하 간단히 프롬프트로 지칭함)를 훈련시키고, 이를 LLM(Large Language Model) 내로 외부 신호를 전달하는 방법으로 활용하여 기억된 데이터의 추출을 조절합니다.

모델 가중치를 고정하고 훈련된 프롬프트만을 생성 조절에 사용합니다.

첫째, 우리는 attack 환경에서 프롬프트를 훈련하고 모델 내 추출 가능한 기억 콘텐츠의 범위를 연구합니다.
둘째, 우리는 defense 환경을 탐색하며, 사용자 지정 하이퍼파라미터를 통해 추출 비율을 감소시키고 다양한 개인정보-유틸리티 균형을 달성하는 프롬프트를 생성합니다.
원본 모델 가중치가 두 설정 모두에서 고정되므로, 우리의 방법은 계산 효율적입니다.
우리가 아는한, 우리의 연구는 LLM의 개인정보 분석 및 완화를 위해 지시적인 프롬프트의 사용을 처음으로 적용한 것입니다.
우리는 실험을 위해 개발한 코드를 공개했습니다.

2 Background and Related Work

이전 연구에서는 LLMs(Large Language Models)가 메모리제이션을 보여주며, 추출 가능성을 측정하는 다양한 방법들을 탐구했습니다 (Carlini 등, 2018, 2020, 2022).
차별적으로 개인정보 보호 훈련(Differentially-private training) (Dwork, 2006; Abadi 등, 2016)은 이러한 리스크를 완화하는 데 사용되는 인기 있는 방법입니다.
그러나 이 방법은 모델 유틸리티를 감소시키고 LLM의 재훈련을 필요로 하며, 무거운 계산 부담으로 인해 실행이 어려울 수 있습니다.
언어 모델에 대한 지시적인 프롬프트의 사용은 다양하게 연구되었는데, 이는 사전 훈련 중에 사용되는 경우(Raffel 등, 2020), 두 번째 단계 훈련으로 사용되는 경우(Sanh 등, 2022; Wei 등, 2021), 그리고 모델 출력을 안내하기 위해 추론 중에 사용되는 경우(Brown 등, 2020)를 포함합니다.
세 번째 범주 내에서, 수동 프롬프트 엔지니어링을 개선하기 위해 연구자들은 이산형 자연어 프롬프트를 학습하는 방법(Shin 등, 2020), 이를 마이닝하는 방법(Jiang 등, 2020), 혹은 자연어를 무시하고 연속적인 프롬프트를 학습하는 방법(Li와 Liang, 2021; Lester 등, 2021)을 구현했습니다.
우리의 연구는 외부 신호를 모델로 전달하여 원하는 모델 동작을 유발하는 방법으로 연속적인 프롬프트를 활용합니다 (즉, 개방형 언어 생성에서 더 적거나 더 많은 메모리제이션 데이터를 유발하는 것으로 각각 추출 공격과 방어에 대응됩니다).

3 Method

Prompt-tuning 은 prefix embedding에 프롬프트를 추가하고 훈련 손실에 접근하는 것을 필요로 합니다 (그림 1 참조).
이러한 제약 하에서, 우리는 target model parameters에 접근하는 white-box attack과 대상 모델과 API를 통해 상호 작용하는 블랙박스 방어를 탐구합니다.
따라서 우리는 우리 자체의 공격에 대한 방어를 테스트하지 않습니다.
[prefix || suffix]가 훈련 세트에 있는 시퀀스라고 가정하면, prefix의 길이가 k 토큰인 경우 Carlini은 suffix를 k-extractable 가능하다고 정의했습니다.
여기서 모델은 해당 길이 k의 prefix로 프롬프트되어 suffix를 정확하게 생성합니다.
우리의 white-box attack은 k-extractable 가능한 시퀀스의 수를 증가시키는 것을 목표로 하며, 우리의 black-box defense는 API를 통해 prefixes를 제출하는 공격자가 추출할 수 있는 k-추출 가능한 시퀀스의 수를 감소시키는 것을 목표로 합니다.

3.1 Attack

공격 설정에서 우리는 공격자가 대상 모델의 training 세트에서 샘플링된 [ prefix || suffix ] 시퀀스 집합 Strain을 가지고 있다고 가정합니다.
그들의 목표는 Stest로 표시되는 상이한 prefixes 집합에 해당하는 suffixes를 추출하는 것입니다.

Stest: For simplicity, we assume all prefixes are k-length. This can easily be ensured by padding or truncating different length prefixes if needed in a real-world setting.

이를 위해 공격자는 먼저 프롬프트를 초기화합니다.

여기서 프롬프트는 l × e 매개변수의 연속적인 집합입니다.
여기서 e는 모델의 임베딩 size이고, l은 프롬프트의 길이로, 이는 공격자가 결정하는 하이퍼파라미터입니다.

프롬프트는 Strain에 대해 훈련되어 suffixes의 올바른 생성을 용이하게 합니다.
이를 위해 먼저 프롬프트를 prefix의 임베딩에 덧붙이고 결합된 임베딩을 생성을 위해 모델을 통과시킵니다.
그런 다음 모델 파라미터를 고정한 상태에서 프롬프트에 대한 손실 목적 함수 (아래 참조)를 프롬프트에 대해 최소화합니다.
우리는 두 가지 손실 목적 함수를 탐구합니다.

첫 번째는 causal language modeling (이하 CLM)이며, 여기서 전체 시퀀스에 대한 교차 엔트로피 손실을 최소화합니다 (Radford 등, 2019).
두 번째로, 프롬프트는 suffixes에 대한 교차 엔트로피 손실만을 최소화하여 최적화됩니다. 이 경우 훈련은 suffix 토큰에 대해 모델이 벌점을 받는 추론 작업과 일치하도록 정렬되어 있습니다. 따라서 우리는 이것을 aligned CLM이라고 참조합니다.

추론 중에는 학습된 프롬프트가 Stest의 각 접두어 임베딩에 덧붙여지며, 결합된 임베딩이 생성을 위해 모델을 통과됩니다 (그림 1 참조).
LLM을 학습시킨 학습데이터의 일부를 샘플링한거시 Strain이라고 하자.

여기서 학습된 LLM은 고정시킨다.
여기서 Strain에는 접근이 가능하다고 가정한다.
attack의 목적은 특정 프롬프트를 추가해서, prefix에 해당하는 suffix을 잘 추출하는 프롬프트를 찾는 것이다.
즉 특정 프롬프트(attack prompt) & prefix을 넣었을 때 suffix가 고대로 나오게끔 attack prompt을 학습시키는 것이다.
학습 방법은 그림1처럼, soft prompt + prefix embedding을 LLM에 넣어서 suffix가 나오도록 학습시킨다.
loss는 suffix부분만 학습되도록 하는 부분과 전체 시퀀스가 학습되도록 2개에 대해 실험한다고 한다.

3.2 Defense

방어 설정에서 방어자(API 소유자)는 프롬프트를 훈련하고 이를 들어오는 prefixes 앞에 덧붙여서 모델에 전달합니다.
우리의 알고리즘은 machine-unlearning literature 및 membership inference 및 backdoor attacks에 대한 방어에서 영감을 받았습니다.
우리는 학습 임계값 θ이라는 하이퍼파라미터를 도입하였습니다.

프롬프트 훈련 중 (3.1절 참조), 손실이 θ보다 작을 경우에는 프롬프트를 벌점을 주기 위해 gradient ascent을 수행합니다.
손실이 θ보다 크면 프롬프트에 대한 gradient descent를 평소와 같이 수행합니다.
평균 에포크 손실이 θ 이상이 될 때까지 훈련을 중지합니다.
이를 통해 우리는 훈련 손실을 효과적으로 제어하고 이를 θ 주변에 안정화시킬 수 있습니다.

이 과정을 통해 모델의 어떤 부분도 다시 훈련하지 않고도 다양한 개인 정보 보호 및 유틸리티 균형을 효율적으로 달성할 수 있습니다.
θ를 탐색하기 위해 초기 값은 모델 훈련 손실보다 약간 높게 설정하고 원하는 성능이 달성될 때까지 0.25씩 증가시킵니다.
Defense는 attack과 다르게 prefix에 해당하는 suffix가 추출되지 않도록 하는 것이다.

defense는 외부에서 이 모델의 학습데이터를 추출하려고 할 때, defense prompt을 넣어서 이를 방해하게 하기 위한 컨셉이라고 보면 된다.
defense 프롬프트는, attack loss의 역의 방향으로 학습되면 될 것이다.
하지만 (-attack loss)을 사용하지 않고, loss을 θ안에 가두는 방식을 사용한다.
아마 (-attack loss)로만 학습하면 PPL이 이상하게 학습될 것이기 때문에 그럴 듯
즉 어느정도 suffix을 추출되도록 gradient descent로 학습시키다가 더이상 학습되지 않게 gradient ascent을 수행하는 방식이다.
기존의 연구를 참고하여서 이렇게 했다고하고, 이게 다양한 개인 정보 보호 및 유틸리티 균형을 효율적으로 달성한다고 한다.
θ는 여러 실험을 통해 찾아낸 듯 하다.

4 Experiments

우리의 실험에서는 GPT-Neo 모델의 125M 및 1.3B 파라미터 변형을 사용합니다.

이들은 Pile 데이터셋에서 CLM을 사용하여 훈련된 공개적인 디코더 전용 트랜스포머 모델입니다.

우리는 Strain과 Stest를 Language Model Extraction Benchmark 데이터셋(Google-Research)에서 추출합니다.

이 데이터셋은 각 시퀀스가 prefix와 suffix로 분할된 Pile의 훈련 분할에서 샘플링된 15,000개의 시퀀스를 포함합니다.
기본 평가 설정에서 prefix와 suffix는 모두 50개의 토큰으로 구성됩니다.
14,000개의 샘플로 무작위로 구성된 훈련/테스트 분할을 보장합니다.
Strain은 target model을 학습시킨 데이터의 일부라고 했는데, Stest도 같은 데이터세트에서 샘플링한 것을 보니, Stest도 학습시킨 데이터의 일부라고 생각하면 될듯

우리의 선택한 평가 지표는 Exact extraction rate 입니다.

이는 테스트 세트에서 올바르게 생성된 suffix의 비율을 나타냅니다 (즉, 생성된 접미어의 모든 토큰이 실제 접미어와 일치하는 경우).

우리는 추가로 fractional extraction rate 을 논의하고 부록 A에서 결과를 제시합니다.
베이스라인으로는 Carlini의 attack analyzed을 사용합니다.

이 공격은 prefixes를 모델에 입력하고 greedy decoding으로 suffixes를 생성하는 것으로 구성됩니다.
그냥 일반적으로 greedy하게 생성하는 것을 말하는 듯

우리의 작업을 제외하고는 이 설정에서 이 attack analyzed이 유일한 추출 공격입니다.
우리의 훈련 설정은 부록 B에서 논의됩니다.
모든 실험은 각 실행에서 새로운 무작위 훈련/테스트 분할을 사용하여 5번 반복됩니다.

4.1 Attack

우리는 공격의 성능을 여러 가지 차원에서 탐색합니다:

prompt length, suffix size, prefix size, and beam size.

우리는 빔 크기 실험을 제외하고 모든 경우에 greedy-decoding을 사용합니다.
Prompt Length

먼저, 우리는 기본 설정에서 (prefix와 suffix가 각각 50개의 토큰으로 구성된) 프롬프트 길이를 탐색합니다(도표 2-A1 및 2-A2).
우리는 CLM과 일치하는 CLM 모두를 사용하여 조정한 프롬프트가 모든 경우에 기준 모델 대비 개선되었음을 알 수 있습니다.
특히, aligned CLM이 가장 우수한 성능을 제공합니다.
이에 따라 우리는 다른 모든 실험과 방어에 대해 일치하는 CLM 목적을 사용하여 프롬프트를 훈련합니다.
aligned CLM을 사용하여 125M 및 1.3B 모델의 추출률이 각각 25.8% 및 54.3%로 최고치를 기록했으며 (각각 8.9 및 9.3 백분율 포인트의 개선), 100개의 토큰으로 된 프롬프트 (파란색 선)로 이루어졌습니다.
추출률이 프롬프트 길이와 함께 증가하며, 프롬프트 길이 100 이후에는 포화되는 경향을 관찰합니다.
훈련 중에 테스트 손실이 증가하지 않아 과적합이 포화의 잠재적인 원인으로 제외되었습니다.
이는 우리의 목표에 따라 추출 목적으로 가치를 추가할 수 있는 프롬프트의 매개 변수 수에 최대 제한이 있다는 것을 시사합니다.
더 정교한 훈련 전략(더 나은 손실 함수 설계, 더 나은 프롬프트 초기화 등)은 더 나은 추출률을 낼 수 있을 것입니다.
학습데이터를 추출할 수 있도록 학습된 prompt의 길이가 늘수록 성능이 좋아진다. (길이가 100넘어가면 saturation 된다. 성능이 떨어질수도)
aligned CLM > CLM이라고 한다.
다른 테스크에서도 입력에 대해 타겟을 생성할 때, aligned CLM처럼 타겟 부분만 학습해보는 것도 의미가 있을 거 같긴 함.

Suffix Size

다음으로, 우리는 prefix 크기를 50으로 고정하고 suffix 크기를 변화시킵니다.
도표 2-B1 및 2-B2에서 보여지듯이, 추출률은 대략 지수 함수적으로 접미사 크기와 함께 감소합니다.
우리는 suffix 크기가 증가함에 따라 길이가 긴 프롬프트(≥ 20)가 baseline에 비해 더 큰 개선을 제공함을 알 수 있습니다.
예를 들어, 1.3B 모델을 사용하여 프롬프트 길이가 100(파란색 선)인 경우, suffix 크기 5에서 추출률이 5.3 percentage 포인트 증가하는 것을 관찰합니다.
반면에 suffix 크기 50에서는 증가율이 9.3 백분율 포인트입니다.
suffix가 길다는 것은 추출해야할 부분이 많다는 것.
따라서 당연힌 suffix가 길어지면 성능이 떨어지는 것.
suffix가 길 때는 prompt가 baseline에 비해 제안한 모델의 좀 더 성능향상에 도움이 된다. (suffix가 길수록 성능차이가 벌어짐)

Prefix Size

다음으로, 우리는 suffix 크기를 50으로 고정하고 prefix 크기를 변화시킵니다.
도표 2-C1 및 2-C2에서 보여지듯이, 추출률은 대략 로그 함수적으로 증가합니다(카를리니 등, 2022와 유사).
suffix 크기와는 반대로, 우리는 기준 모델과의 차이가 점점 감소하는 것을 관찰합니다.
이는 우리의 공격이 기준 모델에 비해 정보가 부족한 상대방(작은 prefix 크기)에게 혜택을 줄 수 있다는 것을 시사합니다.
prefix가 길어지면, 앞서 주어진 정보가 많기 때문에 복원이 더 잘된다.
근데, prefix가 길어지면, baseline과 제안한 모델 성능차이가 줄어든다.
이는 아마도 prefix로써 사전의 정보가 많이 제공되므로, prompt가 없어도 모델이 잘 추출할 수 있기 때문이 아닐까? 싶음

Beam Decoding

마지막으로, prefix와 suffix 크기가 각각 50 토큰인 기본 설정을 사용하고 빔 크기를 변화시킵니다 (빔 크기=1은 탐욕적 디코딩을 의미합니다).
결과는 도표 2-D1 및 2-D2에 나와 있습니다.
우리는 빔 크기를 1에서 5로 증가시킬 때 추출률이 전반적으로 증가하는 것을 관찰합니다.
그러나 빔 크기가 5보다 큰 경우 개선 사항이 고원이나 진동하는 경향이 있습니다.
1.3B 모델은 빔 크기를 증가시킴으로써 더 많은 이익을 얻으며, 150개의 프롬프트 길이로 20의 빔 크기에서 최고 추출률인 61.4%를 달성했습니다.
125M 모델의 최고 추출률은 100개의 프롬프트 길이와 15의 빔 크기에서 28.3%였습니다.

4.2 Defense

마지막으로, 우리는 우리의 black-box defense의 privacy-utility의 trade-off을 평가합니다.
3장에서 언급한 대로, 우리의 방어는 black-box adversary를 대상으로 설계되었으며, 우리의 white-box attack에 대해 테스트할 수 없습니다.

black-box adversary: 공격자가 내부 모델을 알 수가 없는 상황
white-box attack: 공격자가 내부 모델을 아는 상황
여기서 학습한 attack 방법은, 모델을 이용해서 학습된 공격 prompt이기 때문에, 이에 대해 평가할 수 없다는 것

따라서 우리는 기준 모델 공격(4장)을 활용하여 개인 정보 보호를 측정합니다.
방어 설정에서는 더 긴 프롬프트가 가치를 더하지 않았으므로 길이가 1인 프롬프트를 사용합니다.
우리는 생성된 suffixes의 PPL를 사용하여 모델의 유틸리티를 정량화하며, 3.1절과 마찬가지로 정확한 추출률을 사용합니다.

PPL을 측정하기 위해 Pile 데이터셋의 테스트 분할에서 무작위로 선택된 1천 개의 시퀀스 하위 집합을 사용하여 모델이 본 적 없는 데이터에서 PPL을 측정합니다.

또한 Pile 데이터셋에서 훈련되지 않은 유사한 크기의 GPT2 모델과 비교하여 우리의 메트릭스를 비교합니다.
우리의 전제는 비슷한 크기의 도메인 밖 모델과 비교했을 때 개인 정보 보호와 유틸리티 면에서 더 나은 성능이 있다면, 우리의 방어 메커니즘이 API 소유자에게 가치가 있다는 것입니다.
표 1에서는 우리의 결과를 기본 평가 설정(prefix와 suffix가 각각 50개의 토큰으로 구성)을 사용하여 표시합니다.
우리의 방어는 경쟁력 있는 PPL 값과 함께 낮은 추출률을 달성합니다.
125M 모델의 경우, θ = 1.75에서 정확한 추출률이 baseline 대비 99.4% 감소하고 PPL이 25.3% 증가합니다.
1.3B 모델의 경우, θ = 1에서 정확한 추출률이 baseline 대비 97.7% 감소하고 PPL이 16.9% 증가합니다.
해당 크기의 GPT2 모델과 비교하여 낮은 PPL 값과 함께 낮은 추출률을 달성할 수 있는 능력은 우리의 방어가 효과적임을 증명하는 근거를 제공합니다.
즉 defense prompt 학습에 사용되지 않은 Stest에 대해 평가

defense prompt는 길이에 따라 크게 차이가 없었다고 함. 그래서 길이가 1인 프롬프트를 사용함.
생성된 suffix의 PPL 계산하여, 적절한 응답이 생성됐는지를 보는게 유틸리티라고 여기선 말하고
정답 suffix와 비교하여 exact extraction을 봐서 얼마나 방어를 잘했는지를 본다.
그 결과 괜찮은 PPL과 낮은 추출률을 달성한다고 함.
defense prompt가 없는 baseline에 비해 97.4%, 99% 만큼 추출률은 감소하고 PPL은 16.9%, 25%로 살짝 상승하여 안좋아짐
defense에 대해서는 자세한 분석은 하지 않은듯

5 Conclusion

우리는 처음으로 프롬프트 튜닝을 활용하여 개방형 언어 생성 작업에서 Large Language Models (LLMs)로부터 기억된 데이터의 추출 가능성을 제어하는 노력을 제시합니다.
우리는 소위 '데이터 추출 공격'과 그에 대응하는 방어 기법을 개발하고, 다양한 환경에서의 성능을 보여줍니다.
우리의 공격은 정확한 추출 비율 측면에서 기준선을 일관되게 능가합니다.
또한, 우리의 방어 기법은 경쟁력 있는 개인 정보 보호 및 활용성의 균형을 제공하며, 민감한 콘텐츠로 훈련된 모델을 보유한 API 소유자들에게 혜택을 제공할 것입니다.
이러한 결과는 원본 모델 가중치를 변경하지 않고 효율적으로 달성되었습니다.
우리는 부록 C에서 미래 연구 방향을 상세히 설명합니다.

6 Limitations

우리의 연구의 몇 가지 한계를 간단히 언급하고자 합니다.
첫째, 우리는 실험에서 하나의 데이터셋과 하나의 모델 패밀리만을 사용했습니다.

이는 현재 우리의 지식에 따르면 사용 가능한 벤치마크가 해당 데이터셋 뿐이기 때문입니다.
또한, 우리는 추출 메트릭스에만 집중했지만, 추출된 시퀀스에 대한 더 깊은 분석은 수행하지 않았습니다.
추출된 시퀀스의 세밀한 분석은 LLMs에서의 기억과 추출 이해에 중요한 통찰력을 제공할 수 있습니다.

마찬가지로, 우리는 프롬프트가 어떻게 수렴되는지 및 수렴 시점에서 설명 가능한 프롬프트를 생성하는지 분석하지 않았습니다.

이러한 분석은 예를 들어 aligned CLM이 포함된 교육 프롬프트가 basic CLM 설정보다 더 나은 성능을 발휘하는 이유에 대한 더 나은 통찰력을 제공할 수 있습니다.

마지막으로, 우리의 방어 기법의 평가는 다운스트림 테스크에서 다른 유틸리티 메트릭(예: 정확도)을 측정함으로써 더 개선될 수 있다고 생각합니다.

Reference

https://aclanthology.org/2023.acl-short.129.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-187, Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning, ACL 2023

◼ Comment

0 Abstract

1 Introduction

2 Background and Related Work

3 Method

3.1 Attack

3.2 Defense

4 Experiments

4.1 Attack

4.2 Defense

5 Conclusion

6 Limitations

댓글

댓글 쓰기