Short-010, Weight Poisoning Attacks on Pre-trained Models, (2020-Preprint)

◼︎ Comment

  • 이 논문을 읽은 건 아니지만, 밑에 대충 번역해서 쓱보면 adversarial attack와 같은 상황을 방지하는 법을 다룬 것 같다.
  • 즉 요즘에 pre-trained model을 많이들 배포하고 그것을 이용해서 fine-tunningg하는 추세다.
  • 이러면 성능도 잘 나오고 많은 노력이 줄어든다.
  • 그런데 pre-trained model에 악의적으로 어떤 방법을 가하면 모델 예측을 조작할 수 있나보다.
  • 이러한 고민이 있는 상황에 처하면 읽어보자!
    • 근데 당분간은 없을 듯.. 
    • 실제로 현재 오픈생태게에서 그런 짓을 한다면 매장이기 때문에 내가 볼땐, 약간 연구 주제로 다룰만한 것인 듯하다.

0. Abstract (번역)

  • 최근 NLP는 사전 훈련 된 대형 모델의 사용이 급증하고 있습니다. 사용자는 대규모 데이터 세트에서 사전 학습 된 모델의 가중치를 다운로드 한 다음 선택한 작업에서 가중치를 미세 조정할 수 있습니다.
  • 이것은 신뢰할 수없는 사전 훈련 된 가중치를 다운로드 할 때 보안 위협이 될 수 있는지에 대한 의문을 기합니다.
  • 이 백서에서는 사전 조정 된 가중치에 미세 조정 후 "백도어"를 노출시키는 취약점이 주입되어 공격자가 임의의 키워드를 주입하여 모델 예측을 조작 할 수있는 "가중 중독"공격을 구성 할 수 있음을 보여줍니다. 
  • 우리는 RIPPLe라고하는 정규화 방법과 Embedding Surgery라고하는 초기화 절차를 적용함으로써 데이터 세트 및 미세 조정 절차에 대한 지식이 부족하더라도 이러한 공격이 가능함을 보여줍니다. 
  • 정서 분류, 독성 탐지 및 스팸 탐지에 대한 실험에서이 공격은 광범위하게 적용 할 수 있으며 심각한 위협이됩니다. 
  • 마지막으로, 우리는 그러한 공격에 대한 실질적인 방어를 설명합니다.

7. Conclusion (번역)

  • 이 백서에서는 사전 훈련 된 모델이 “poisoned” 되어 미세 조정될 때 백도어가 노출되는 “weight poisoning” 공격의 가능성을 식별합니다.  
  • 가장 효과적인 방법 인 RIPPLES는 교육 데이터 세트 또는 하이퍼 파라미터 설정에 액세스하지 않아도 100 %의 높은 성공률로 백도어를 생성 할 수 있습니다. 
  • 우리는 빈도와 출력 클래스와의 관계를 기반으로 가능한 트리거 키워드를 검사하는이 공격에 대한 실질적인 방어를 설명합니다. 
  • 우리는 이 작업이 다른 소프트웨어의 정확성을 확립하기위한 유사한 메커니즘이 존재하는 것처럼 사전 훈련 된 가중치의 진실성을 주장 할 필요성을 분명히하기를 희망합니다.
Reference

댓글