NL-323, Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks, Antropic 2026

ABSTRACT

본 논문에서는 기존 세대의 방어 기법에 비해 계산 비용과 거부율(refusal rate)을 획기적으로 낮추면서도, 프로덕션 환경에서 사용 가능한 수준의 탈옥(jailbreak) 강건성을 제공하는 개선된 Constitutional Classifiers를 제안한다. 우리의 시스템은 여러 핵심적인 통찰을 결합한다.

  • 첫째, 모델의 응답을 전체 대화 맥락(full conversational context) 속에서 평가하는 exchange classifier를 개발하였다. 이는 출력만을 단독으로 검사하던 기존 세대 시스템의 취약점을 해결한다.
  • 둘째, 2단계 분류기 캐스케이드(two-stage classifier cascade)를 도입하여, 모든 트래픽은 경량 분류기로 먼저 선별하고, 의심되는 상호작용만 계산 비용이 더 큰 분류기로 승격(escalation)하도록 설계하였다.
  • 셋째, 효율적인 선형 프로브(linear probe) 분류기를 학습하고 이를 외부 분류기와 앙상블하여, 강건성을 동시에 향상시키면서 계산 비용을 줄였다.

이러한 기법들을 결합함으로써, 우리는 기준선 exchange classifier 대비 40배의 계산 비용 절감을 달성하면서도, 프로덕션 트래픽에서 0.05%의 매우 낮은 거부율을 유지하는 프로덕션 등급 시스템을 구현하였다.
1,700시간이 넘는 광범위한 레드팀(red-teaming) 실험을 통해, 본 시스템이 범용 탈옥(universal jailbreak)에 대해 강력한 보호 성능을 제공함을 입증하였다. 구체적으로, 이 시스템을 대상으로 한 어떤 공격도, 방어가 없는 모델과 비교해 동등한 수준의 상세함으로 8개의 모든 목표 질의에 답변을 유도하는 데 성공하지 못했다.

본 연구는 Constitutional Classifiers가 대규모 언어 모델을 보호하기 위한 실용적이고 효율적인 안전장치가 될 수 있음을 입증한다.

1 INTRODUCTION 번역

Constitutional Classifiers(Sharma et al., 2025)는 대규모 언어 모델(LLM)을 탈옥(jailbreak) 시도로부터 방어하기 위한 유망한 접근법이다. 여기서 탈옥이란, 모델의 안전장치를 우회하여 유해한 정보를 추출하려는 프롬프트 전략을 의미한다. 이러한 탈옥 방어는 특히 화학·생물·방사능·핵(CBRN) 무기와 관련된 고위험 위협을 완화하는 데 있어 매우 중요하다(Anthropic, 2023; OpenAI, 2023; Li et al., 2024).

그러나 어떠한 방어 기법도 완벽하게 강건할 수는 없으며, 공격자는 일반적으로 기존에 효과적이었던 방어를 우회하기 위한 새로운 공격을 개발한다(Anderson, 2010; Carlini et al., 2019). 더 나아가, 보호 장치를 실제 프로덕션 환경에 배포하기 위해서는 여러 제약 조건을 동시에 고려해야 하며, 특히 **응답 거부율(refusal rate)**과 계산 비용(computational cost) 사이의 균형이 중요하다. 실제로 Sharma et al. (2025)은 그들의 시스템이 프로덕션 트래픽에서 23%의 계산 오버헤드와 0.38%의 거부율을 보였다고 보고했으며, 이는 해당 시스템의 배포 가능성을 제한하는 요인이었다.

본 연구에서는 이전 세대 방어 기법보다 더 높은 강건성을 제공함과 동시에, 계산 비용과 거짓 양성(false positive) 비율을 획기적으로 낮춘 탈옥 방어 시스템을 제안한다.

구체적으로, 우리는 먼저 기존 세대 Constitutional Classifiers에 대한 추가적인 적대적 테스트(adversarial testing)를 수행하였다(섹션 2). 이를 통해, 해당 방어를 우회할 수 있는 두 가지 공격 유형을 식별하였다.

  • (i) 재구성 공격(reconstruction attacks): 유해한 정보를 더 큰 맥락 안에서 여러 조각으로 분산시킨 뒤, 이를 다시 조립하도록 유도하는 방식이다.
  • (ii) 출력 난독화 공격(output obfuscation attacks): 출력만을 검사하는 분류기를 우회하기 위해 모델 출력을 난독화하는 방식으로, 때로는 입력과 함께 보지 않으면 해석이 불가능한 형태를 취한다.

이러한 공격들은 일반적으로 모델의 성능을 저하시킨다. 그러나 공격자가 더 적은 성능 저하만으로도 방어를 우회하는 새로운 공격을 설계할 가능성이 높다는 점에서, 이러한 취약성은 여전히 심각한 문제로 남는다.

이러한 취약성을 해결하기 위해, 우리는 Sharma et al. (2025)이 제안한 **입력 분류기(input classifier)**와 **출력 전용 분류기(output-only classifier)**를 하나의 exchange classifier로 대체한다(섹션 3). 

  • Exchange classifier는 모델 출력이 생성되는 동안, 해당 출력이 그에 대응하는 입력 맥락과 함께 평가되도록 설계되었다. 
  • 이 접근법은 출력 난독화의 난이도를 크게 증가시킨다.
  • 어떻게 한다는거지? 출력 분류할때, 입력 프롬프트를 컨텍스트로 넣는다는 것인가

인간 레드팀 실험을 통해, 우리는 exchange classifier가 범용 탈옥에 대해 현저히 더 강한 강건성을 제공함을 보였다. 구체적으로, 이 방식은 입력·출력 이중 분류기(dual-classifier) 접근법을 구현한 시스템과 비교했을 때, 탈옥 시도당 발견되는 고위험 취약점의 수를 2.2배 감소시켰다. 다만, 이는 더 높은 계산 비용을 수반한다.

계산 오버헤드를 줄이기 위해, 우리는 **분류기 캐스케이드 구조(classifier cascade architecture)**를 도입한다(섹션 4). 이 구조에서는 모든 상호작용을 경량의 1단계 분류기로 먼저 검사하고, 이 중 의심되는 경우에만 더 정확하지만 비용이 높은 2단계 분류기로 전달한다. 1단계 분류기에서 플래그가 지정된 상호작용은 즉시 거부되지 않고 승격(escalation)되기 때문에, 과도한 거부율 증가 없이도 더 많은 트래픽을 플래그할 수 있다. 이를 통해, 더 저렴하고 성능이 약한 모델도 충분한 수준의 탐지를 달성할 수 있다. 이 접근법과 최신 모델, 그리고 파이프라인 최적화를 결합하여, 우리는 exchange classifier와 유사한 강건성을 유지하면서도 계산 오버헤드를 5.4배 감소시킨 시스템을 구축하였다.

이후, 계산 비용을 더욱 줄이기 위해 **선형 활성화 프로브(linear activation probe)**를 사용한 효율적인 분류기를 학습하고, 이를 외부 분류기와 앙상블하는 방법을 제안한다(섹션 5). 우리는 **로짓 스무딩(logit smoothing)**과 **가중 소프트맥스 손실(weighted softmax loss)**을 사용해 프로브를 학습하며, 절제 실험(ablation study)을 통해 이 요소들이 성능에 필수적임을 보인다. 이 학습 방식은 유해 시퀀스 분류에 가장 중요한 토큰으로 그래디언트를 집중시켜, 추가 맥락이 주어질 때만 유해해지는 접두(prefix)에 대해서는 무해한 라벨을 자신 있게 예측할 수 있도록 한다. 정적 탈옥 데이터 분석 결과, 이러한 프로브는 거의 비용이 들지 않으면서도 소형 미세조정 외부 분류기와 경쟁력 있는 강건성을 달성한다. 또한, 프로브는 외부 분류기와 상보적인 신호를 포착하는 것으로 나타나, 두 방법을 결합한 앙상블이 단독 방식보다 더 강한 강건성을 제공한다.

마지막으로, 우리는 이러한 기법들을 결합하여 프로덕션 등급 Constitutional Classifier 시스템을 구축한다(섹션 6). 이 시스템은 가중치를 둔 2단계 캐스케이드를 사용하며, 1단계로는 선형 프로브를, 2단계로는 프로브–외부 분류기 앙상블을 활용한다. 프로덕션 트래픽에 대한 섀도우 배포(shadow deployment) 결과, 이 시스템의 플래그율은 **0.05%**로, Sharma et al. (2025)이 보고한 **0.38%**보다 현저히 낮았다. 또한 계산 오버헤드는 섹션 3의 exchange classifier 대비 40배 이상, 프로브를 사용하지 않은 2단계 캐스케이드 대비 8배 감소하였다. 총 1,700시간 이상의 인간 레드팀 실험에서, 본 시스템은 취약점 발견률과 최소 취약점 발견 시간 기준으로 우리가 평가한 모든 시스템 중 가장 높은 강건성을 달성하였다. 특히, 어떠한 레드팀 공격도 모든 목표 CBRN 질의에 대해 일관되게 고도로 상세한 답변을 추출하는 범용 탈옥을 발견하지 못했다.

종합하면, 본 연구는 Constitutional Classifiers가 실제 배포 환경에서도 실용성을 유지하면서 강력한 강건성을 달성할 수 있음을 보여주며, 이를 LLM 범용 탈옥 방어를 위한 효율적이고 프로덕션 준비가 된 안전장치로 확립한다.






























Reference

댓글