0. Abstract (번역)

최근 NLP는 사전 훈련 된 대형 모델의 사용이 급증하고 있습니다. 사용자는 대규모 데이터 세트에서 사전 학습 된 모델의 가중치를 다운로드 한 다음 선택한 작업에서 가중치를 미세 조정할 수 있습니다.
이것은 신뢰할 수없는 사전 훈련 된 가중치를 다운로드 할 때 보안 위협이 될 수 있는지에 대한 의문을 기합니다.
이 백서에서는 사전 조정 된 가중치에 미세 조정 후 "백도어"를 노출시키는 취약점이 주입되어 공격자가 임의의 키워드를 주입하여 모델 예측을 조작 할 수있는 "가중 중독"공격을 구성 할 수 있음을 보여줍니다.
우리는 RIPPLe라고하는 정규화 방법과 Embedding Surgery라고하는 초기화 절차를 적용함으로써 데이터 세트 및 미세 조정 절차에 대한 지식이 부족하더라도 이러한 공격이 가능함을 보여줍니다.
정서 분류, 독성 탐지 및 스팸 탐지에 대한 실험에서이 공격은 광범위하게 적용 할 수 있으며 심각한 위협이됩니다.
마지막으로, 우리는 그러한 공격에 대한 실질적인 방어를 설명합니다.

7. Conclusion (번역)

이 백서에서는 사전 훈련 된 모델이 “poisoned” 되어 미세 조정될 때 백도어가 노출되는 “weight poisoning” 공격의 가능성을 식별합니다.
가장 효과적인 방법 인 RIPPLES는 교육 데이터 세트 또는 하이퍼 파라미터 설정에 액세스하지 않아도 100 %의 높은 성공률로 백도어를 생성 할 수 있습니다.
우리는 빈도와 출력 클래스와의 관계를 기반으로 가능한 트리거 키워드를 검사하는이 공격에 대한 실질적인 방어를 설명합니다.
우리는 이 작업이 다른 소프트웨어의 정확성을 확립하기위한 유사한 메커니즘이 존재하는 것처럼 사전 훈련 된 가중치의 진실성을 주장 할 필요성을 분명히하기를 희망합니다.

Reference