Abstract

현재의 대형 언어 모델(Large Language Models, LLM)의 안전성 정렬(safety alignment)은 취약한 상태다. 상대적으로 간단한 공격이나 심지어 악의 없는 미세 조정(benign fine-tuning)만으로도 정렬된 모델(aligned models)의 안전장치를 무력화(jailbreak)할 수 있다. 우리는 이러한 취약성의 대부분이 공통적으로 근본적인 문제와 연관되어 있다고 주장한다. 즉, 안전성 정렬이 모델의 생성 분포(generative distribution)를 초기 출력 토큰의 극소수에만 국한하여 조정하는 '얕은 안전성 정렬(shallow safety alignment)'이라는 문제 때문이다. 본 논문에서는 여러 사례 연구를 통해 왜 이러한 얕은 안전성 정렬이 발생할 수 있는지 설명하고, 현재 정렬된 LLM들이 이 문제의 영향을 받고 있음을 보여준다.

또한 최근에 발견된 다양한 LLM 취약성들이 얕은 안전성 정렬로 설명될 수 있음을 입증한다. 여기에는 적대적 접미사 공격(adversarial suffix attacks), 미리 채우기 공격(prefilling attacks), 디코딩 매개변수 공격(decoding parameter attacks), 미세 조정 공격(fine-tuning attacks)에 대한 취약성이 포함된다.

중요하게도 우리는 얕은 안전성 정렬이라는 통합된 개념을 통해 이러한 취약성을 완화하기 위한 유망한 연구 방향들을 제시한다. 예를 들어, 안전성 정렬을 최초 몇 토큰 이상의 더 깊은 수준으로 확장하면 일반적인 공격에 대한 견고성(robustness)을 크게 개선할 수 있음을 보였다. 또한 초기 토큰의 업데이트를 제한하여 미세 조정 공격에 대해 안전성 정렬이 더 지속적이도록 하는 정규화된 미세 조정 목표(regularized fine-tuning objective)를 설계하였다. 결론적으로, 미래의 안전성 정렬은 단지 몇 개의 초기 토큰 이상으로 심화되어야 한다고 제안한다.