NL-320, Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming, Antropic 2025
Abstract
대규모 언어 모델(LLM)은 범용 jailbreak에 취약하다. 범용 jailbreak란 모델의 안전장치를 체계적으로 우회하여, 불법 물질을 대규모로 제조하는 것과 같이 여러 차례의 모델 상호작용이 필요한 유해한 과정을 수행할 수 있게 만드는 프롬프트 전략을 의미한다. 이러한 공격에 대응하기 위해 우리는 Constitutional Classifiers를 제안한다. 이는 허용 및 제한된 콘텐츠를 자연어 규칙(즉, 헌법, constitution)으로 명시하고, 이를 기반으로 LLM을 프롬프트하여 생성한 합성 데이터로 학습된 안전장치(classifier)이다.
3,000시간 이상으로 추정되는 레드팀 테스트 동안, 초기 분류기(classifier)로 보호된 LLM에서 대부분의 목표 질의에 대해 보호되지 않은 모델과 유사한 수준의 상세 정보를 추출할 수 있는 범용 jailbreak를 성공적으로 찾아낸 레드팀 참가자는 없었다. 자동화된 평가에서도, 개선된 분류기들은 보류(held-out)된 도메인 특화 jailbreak에 대해 강건한 방어 성능을 보였다.
이러한 분류기들은 실제 배포 가능성도 유지한다. 생산 트래픽에서의 거부율(refusal)은 절대값 기준으로 0.38% 증가에 그쳤으며, 추론 오버헤드는 23.7%였다. 본 연구는 범용 jailbreak에 대한 방어를 실질적인 배포 가능성을 유지한 채 달성하는 것이 충분히 실현 가능함을 보여준다.
1 서론 (Introduction)
대규모 언어 모델(LLM)의 안전 메커니즘은 “jailbreak”를 통해 우회될 수 있으며, 이로 인해 모델로부터 유해한 정보를 유도해낼 수 있다(Andriushchenko et al., 2024; Anil et al., 2024; Hughes et al., 2024; Liu et al., 2023; Qi et al., 2024; Shen et al., 2023). 이러한 jailbreak는 LLM의 화학·생물·방사능·핵(CBRN) 관련 능력이 향상됨에 따라 더욱 심각한 문제가 된다(Anthropic, 2023a; Li et al., 2024; OpenAI, 2023).
CBRN 관련 오용 위험을 완화하기 위해, 우리는 범용 jailbreak 전략에 대한 방어에 초점을 맞춘다.
- 범용 jailbreak란 특정 도메인에서 거의 대부분의 질의에 대해 일관되게 상세한 유해 정보를 추출해낼 수 있는 공격을 의미한다.
- 대표적인 예로는 “Do Anything Now”(Shen et al., 2023)나 “God-Mode”(Pliny, 2025) 공격이 있다.
- 이러한 범용 jailbreak는 비전문가라도 원래는 수행할 수 없는 복잡한 과학적 과정을 실행할 수 있게 만들 수 있다는 점에서 특히 우려된다.
- 더 나아가, 우리의 방어 기법은 실제 배포가 가능해야 하며, 변화하는 위협 모델에 적응할 수 있을 만큼 충분히 유연해야 한다.
이러한 목표를 달성하기 위해, 우리는 입력과 출력을 모니터링하여 잠재적으로 유해한 콘텐츠를 차단하는 분류기(classifier) 기반 안전장치를 LLM에 추가한다(그림 1a).
- 개별 분류기는 단독으로 완벽한 강건성을 달성하지 못할 수 있지만, 이들은 “스위스 치즈(swiss-cheese)” 모델(Reason, 1990)처럼 상호 보완적인 방어 요소로 작동하며, 보호된 언어 모델과 함께 다층적인 보호를 형성한다.
- 이 단순한 접근법은 매우 효과적이다.
- 분류기로 보호된 시스템을 대상으로 3,000시간이 넘는 인간 레드팀 테스트를 수행한 결과, 목표 CBRN 도메인에서 성공적인 범용 jailbreak는 관찰되지 않았다.
구체적으로, 우리는 Constitutional Classifiers를 제안한다. 이는 명시적인 헌법적 규칙(constitutional rules)을 사용해 분류기 안전장치를 학습하는 프레임워크이다(§3).
- 본 접근법의 핵심은 허용 가능한 콘텐츠와 제한된 콘텐츠의 범주를 구분하는 헌법에 있으며(그림 1b),
- 이 헌법은 합성 학습 예제를 생성하는 데 사용된다(그림 1c).
이를 통해, 모델 오정렬(model misalignment)과 관련된 위협을 포함하여, 헌법을 업데이트하는 것만으로 새로운 위협 모델에 신속히 대응할 수 있다(Greenblatt et al., 2023). 성능 향상을 위해, 우리는 광범위한 데이터 증강을 적용하고, 무해한 데이터의 풀(pool)을 활용한다.
중요하게도, 우리의 **출력 분류기(output classifier)**는 스트리밍 예측을 지원한다. 즉, 전체 출력이 생성될 때까지 기다리지 않고, 각 토큰 시점에서 완성된 전체 출력의 잠재적 유해성을 평가한다.
- 이를 통해 실시간 개입이 가능해진다.
- 만약 출력 도중 어느 시점에서든 유해한 콘텐츠가 감지되면, 즉시 생성을 중단할 수 있으며, 이는 안전성과 사용자 경험을 모두 보존한다.
- 생성 중간에 해로운 응답인지 아닌지를 실시간으로 판단하는 모델이라는 것! 서비스를 고려한 방식인듯
헌법으로 부터 프롬프트를 생성 (유해한 프롬프트, 유해하지 않은 프롬프트)
- 헌법에 유해한지 아닌지에 대한 카테고리가 있음
입력쪽에서 유해한 프롬프트를 막기 위해, 유해한 프롬프트 -> harmful, 유해하지 않은 프롬프트 -> harmless 를 생성하도록 학습하고
출력쪽에서 유해한 응답을 막기 위해, 유해한/유해하지 않은 프롬프트에 대해 helpful-only llm으로 생성한 응답을 가져와서 학습하는 구조
- 단, 여기서는 생성하도록 하는게 아니라 토큰 logit으로 분류하는 방식으로 학습
우리 접근법의 강건성을 평가하기 위해, 우리는 Claude 3.5 Sonnet을 기반으로 미세조정된(prototype) 분류기를 대상으로 대규모 인간 레드팀 테스트를 수행했다(Section 4). 총 405명의 참가자(경험 많은 레드팀 포함)를 HackerOne을 통해 버그 바운티 프로그램에 초대했으며, 범용 jailbreak를 발견할 경우 최대 15,000달러(USD)의 상당한 금전적 보상을 제공했다. 레드팀 참가자들은 10개의 유해한 CBRN 질의에 대해 답변을 획득하는 것이 과제로 주어졌으며, 보상은 성공 정도에 연동되었다.
3,000시간 이상으로 추정되는 레드팀 테스트에도 불구하고, 어떤 레드팀 보고서도 제한 없는(unrestricted) 모델이 제공하는 상세도의 절반 수준에 해당하는 답변을 10개 질의 모두에 대해 성공적으로 얻지 못했다. 다만 일부 유해한 정보는 추출되었다. 더 엄격한 기준, 즉 제한 없는 모델과 유사한 수준의 상세도를 요구할 경우, 어떤 레드팀 참가자도 10개 중 6개 이상의 질문에 답하지 못했다.
이러한 결과는, 우리의 레드팀 참가자들이 안전장치가 없는 모델과 유사한 수준으로 정보를 일관되게 추출해낼 수 있는 범용 jailbreak를 발견하지 못했음을 시사한다.
- 일부 질의에 대해서는 공격이 뚫리나, 범용적으로 뚫리는 공격 방법은 없었다
이후 우리는 화학무기 정보를 차단하도록 설계된 새로운 헌법을 사용하여, 개선된 Claude 3.5 Haiku 분류기를 학습함으로써, 본 접근법의 배포 가능성과 유연성을 입증한다(Section 5). 새로운 jailbreak 시도를 포함한 자동화된 평가에서, 이 분류기들은 배포 가능성을 유지하면서도 jailbreak에 대한 강건성을 크게 향상시킴을 보였다.
구체적으로, 분류기로 보호된 시스템은 보류된 jailbreak 시도의 95% 이상을 거부한 반면, 분류기가 없는 경우에는 14%만을 거부했다.
- 이러한 개선은 제한된 비용으로 달성되었으며, Claude.ai 생산 트래픽에서 거부율은 절대값 기준 0.38% 증가에 불과했고, 추론 오버헤드는 23.7%였다.
종합적으로, 본 연구는 실질적인 배포 가능성을 유지하면서 범용 jailbreak에 대응하는 방어가 충분히 달성 가능함을 보여준다.
2 문제 정식화: 보편적 탈옥(Universal Jailbreaks)에 대한 강건하고 실용적으로 배포 가능한 방어
이제 우리는 문제 정식화를 동기 부여한다. 즉, **보편적 탈옥(universal jailbreak)**에 대응하기 위해 **실용적으로 배포 가능한 안전장치(safeguards)**를 개발하는 것이다.
요구조건 1: 보편적 탈옥에 대한 강건성
우리의 목표는 고급 과학적 역량을 갖춘 LLM을 광범위하게 배포할 수 있도록 하는 안전장치를 개발하는 것이다. 이러한 시스템은 유익한 활용 가능성을 지니지만, 그 이중용도(dual-use)적 성격은 중요한 우려를 야기한다. 특히 Anthropic(2023a)과 OpenAI(2023)가 강조했듯이, 언어 모델이 비전문가(non-expert)에게 위험한 CBRN(화학·생물·방사능·핵) 정보를 제공할 가능성은 핵심적인 우려 사항이다.
여러 위협 모델은 AI 시스템이 비전문가 행위자를 전문가 수준의 역량으로 끌어올리는(uplift) 가능성을, 이 영역에서 AI가 현실 세계의 피해로 이어질 수 있는 핵심 메커니즘으로 지적한다(Rose et al., 2024).
- 이러한 역량 증폭은 악의적 행위자가 원래의 능력이나 자원으로는 수행할 수 없었던 복잡한 과학적·기술적 과정을 실행할 수 있게 만들 수 있다.
- 의미 있는 수준의 역량 증폭이 발생하려면, 우리는 다음 조건들이 충족되어야 한다고 본다.
첫째, 비전문가는 스스로 과학적 주장들을 검증할 전문성이 없기 때문에, 정확한 정보를 신뢰성 있게 획득할 수 있어야 한다.
둘째, 위협 행위자가 지침을 필요로 하는 대부분의 상이한 질의들에 대해, 언어 모델이 성공적으로 도움을 제공해야 한다.
셋째, LLM은 단순한 일반 지식이 아니라 매우 상세하고, 정확하며, 구체적인 정보를 제공해야 한다.
위 조건들이 충족되면, 비전문가를 전문가 수준의 역량으로 끌어올리기 때문에 현실 세계의 피해로 이어질 수 있다는 것
이러한 통찰을 바탕으로, 우리는 보편적 탈옥의 완화에 초점을 맞춘다. 본 논문에서 보편적 탈옥 또는 보편적 탈옥 전략이란, 특정 도메인에서 대부분의 질의에 대해 LLM의 안전장치를 신뢰성 있게 우회하여, 시스템이 고도로 상세하고 구체적인 유해 정보를 드러내도록 만드는 (잠재적으로 자동화된) 프롬프팅 접근법을 의미한다. 다시 말해, 보편적 탈옥은 모델을 사실상 아무런 안전장치가 없는 변형 모델로 전환시킨다.
우리는 LLM에서의 보편적 탈옥을 방지하는 것이, CBRN 관련 위험이 실질적으로 커지는 시점에서 현실 세계의 CBRN 위험을 크게 감소시킬 것이라 믿는다. 그 이유는 보편적 탈옥이 바로 가장 우려되는 형태의 비전문가 역량 증폭을 가능하게 하기 때문이다. 구체적으로,
(i) 보편적 탈옥은 신뢰성이 있어, 과학 정보를 독자적으로 검증할 수 없는 비전문가도 지속적으로 정확한 지침을 얻을 수 있고,
(ii) 도메인 내 대다수의 질의에 걸쳐 작동하여, 복잡한 과학적 과정에 포함된 수많은 단계들에 대해 도움을 제공하며,
(iii) 일반적 지식이 아니라 상세하고 구체적인 정보를 이끌어내어, 기술적 절차를 실행하는 데 필요한 수준의 지침을 제공한다.
위는, 보편적 탈옥이 왜 위험한지를 설명.
한 두개 씩 뚫리는 것이 문제라기 보다는, 보편적 탈옥은, 비전문가가 실제로 위험한 과정을 끝까지 수행할 수 있게 만드는 모든 조건을 동시에 만족시키는 공격이기 때문에 위험하다는 것
요구조건 2: 실용적 배포 가능성
안전장치는 실제 배포 환경에서도 실용적으로 유지 가능해야 한다. 이는 다음을 의미한다.
(a) 추론 오버헤드와 지연(latency)이 합리적인 수준으로 유지되어, 프로덕션 환경에서 비용 효율적이어야 하며,
(b) 사용자 경험을 위해 첫 토큰까지의 시간(time-to-first-token)과 스트리밍 기능을 보존해야 하고,
(c) 정당한 사용자에게 불편을 주지 않도록 거짓 양성(false positive) 비율을 낮게 유지해야 한다.
가드 모델을 실제 서비스로 배포할 때 가져야할 조건들
요구조건 3: 유연성
안전장치는 잠재적 피해 도메인이 변화함에 따라 적응할 수 있을 만큼 유연해야 한다. 마찬가지로, 적대자가 점점 더 정교한 기법을 개발함에 따라 등장하는 새로운 공격 패턴에 대한 방어를 시스템이 통합할 수 있어야 한다.
3 Constitutional Classifiers
보편적 탈옥에 대해 강건하면서도 실용적으로 배포 가능한 방어를 개발하기 위해, 우리는 헌법(constitution)에 의해 유도된 합성 데이터로 분류기 안전장치(classifier safeguards)를 학습한다. 이 헌법적 접근은 유해한 콘텐츠와 허용 가능한 콘텐츠의 범주를 명시적으로 정의하는 데 있어 높은 유연성을 제공하며, 이를 통해 새롭거나 진화하는 위협 모델에 맞춰 안전장치를 갱신할 수 있을 뿐 아니라 대규모 학습 데이터 생성도 가능하게 한다. 높은 강건성을 달성하면서 거짓 양성을 최소화하기 위해, 우리는 데이터 증강 기법을 활용하고 **대규모의 무해한 입력·출력 풀(pool)**을 함께 사용한다.
구체적으로, 우리는 입력 전용(input-only) 분류기와 출력 전용(output-only) 분류기로 구성된 이중 분류기 방어 시스템을 사용한다. 스트리밍 출력 전용 분류기는 보호 대상 모델의 출력을 필터링하며, many-shot jailbreaking(Anil et al., 2024)과 GCG(Zou et al., 2023)를 포함해 현재 널리 알려진 다수의 보편적 탈옥 전략(Kim et al., 2024)을 완화한다. 입력 분류기는 출력 분류기를 우회하려는 시도를 탐지하고 차단할 수 있다.
3.1 헌법 명시하기 (Specifying a constitution)
우리의 접근법은 헌법, 즉 자연어 규칙들의 집합을 사용하여 허용되는 콘텐츠와 제한되는 콘텐츠의 범주를 정의한다(예시는 표 1 참조).
일반적으로, 허용되는 콘텐츠 범주를 명시적으로 규정하는 것은 **과도한 거부(over-refusal)**를 제한하는 데 필수적이다(부록 E.5 참조).
이러한 헌법적 접근은 강건한 안전장치를 개발하는 데 있어 핵심적인 장점을 제공한다. 헌법이 자연어로 작성되어 있기 때문에, 콘텐츠 범주를 수정함으로써 새로운 위협 모델에 맞게 쉽게 적응·정제할 수 있다. 또한 이 방식으로 생성된 레이블된 데이터셋은 **선형 프로브(linear probe)**와 같은 다양한 유형의 안전장치 학습에 활용될 수 있다(Alain and Bengio, 2016). 더 나아가, 유해한 범주와 무해한 범주를 모두 명시적으로 구분함으로써 보다 미묘한(nuanced) 학습 데이터를 생성할 수 있고, 이는 분류기가 **적절한 결정 경계(classification boundaries)**를 학습하는 데 도움을 준다. 또한 분류기가 의도한 동작은 헌법의 범주들을 검토함으로써 해석 가능하다.
3.2 합성 데이터 생성 (Generating synthetic data)
우리의 분류기는 미세조정(fine-tuning)된 LLM이다. 이는 프롬프트 기반 분류기(prompted classifier) 대비 여러 장점을 제공한다. 미세조정을 통해 시스템의 취약점을 체계적으로 보완할 수 있을 뿐 아니라, 분류 작업에 특화된 LLM을 사용함으로써 연산 오버헤드를 크게 줄일 수 있기 때문이다.
¹ helpful-only 언어 모델은 무해성(harmlessness) 최적화 없이 도움성(helpfulness)만을 최적화한 모델로, 잠재적으로 유해한 질의에 대해서도 제한 없는 응답을 생성할 수 있기 때문에, 합성 데이터 생성에 특히 적합하다.
단계 I: 헌법 기반 합성 데이터 생성
주어진 헌법을 바탕으로, 우리는 helpful-only 모델¹을 사용해 헌법에 정의된 범주들을 포괄하는 질의들을 생성한다. 이 과정은 Anthropic(2024a)과 유사하다. 이후 동일한 helpful-only 모델을 사용해, 각 합성 입력에 대해 유해한 출력과 무해한 출력을 모두 생성한다. 마지막으로, 프롬프트된 언어 모델을 사용하여 생성된 입력과 출력 중 **의도치 않은 거부(refusal)**가 포함된 사례를 필터링한다.
단계 II: 데이터 증강 (Data augmentation)
합성 데이터의 다양성과 커버리지를 향상시키기 위해, 우리는 광범위한 데이터 증강 기법을 적용한다. 이러한 “변환(transformations)”은 의미적 내용은 보존하면서 입력과 출력의 다양성을 확장한다. 구체적으로,
언어 간 번역,
LLM 기반 패러프레이징(paraphrasing),
시스템 프롬프트 변형,
다양한 탈옥(jailbreaking) 기법,
그리고 이들의 조합적 결합(compositional combinations)등을 포함하며, 여러 언어적 차원에 걸쳐 적용된다.
3.3 자동화된 레드팀 (Automated red teaming)
우리는 자동화된 레드팀(ART; Automated Red Teaming) 기법(Perez et al., 2022)을 사용해 추가적인 학습 데이터를 생성한다. 구체적으로, 알려진 탈옥 기법들에 대한 설명을 helpful-only 언어 모델에 제공하고, 이를 바탕으로 새로운 공격 시나리오를 생성하도록 유도한다.
결국 합성데이터를 어떻게 만드냐가 중요해보이는데... helpful-only 모델이 있어야할거 같은데
이때, Section 3.2에서 생성한 합성 데이터를 모델이 사용할 금지된 질의(forbidden queries)의 출처로 활용한다. 더 나아가, ART가 장문 컨텍스트(long-context) 및 다중 턴(multi-turn) 공격을 생성할 수 있도록, 먼저 공격 템플릿을 생성하게 한 뒤, 추가적인 언어 모델 호출을 통해 해당 템플릿을 구체적인 내용으로 채우도록 한다. 자세한 내용은 부록 F를 참조한다.
3.4 분류기 학습 (Training classifiers)
입력 분류기 (Input classifier)
우리는 입력 분류(input classification) 과제를 다음 토큰 예측(next-token prediction) 문제로 정식화하고, 이를 수행하도록 언어 모델을 미세조정한다(부록 E.1 참조). 구체적으로, 전체 입력을 과업을 설명하는 템플릿으로 감싼다(두 분류기 모두에 사용된 전체 프롬프트 템플릿은 부록 E.7 참조). 분류기 학습에는 Section 3.2와 Section 3.3에서 설명한 데이터 소스들을 사용한다.
추가로, 우리는 **암호화된 의사소통(coded communication)**을 수립하려 하거나, 혹은 출력이 입력을 보지 않으면 이해될 수 없도록 의도적으로 난독화하려는 입력을 차단하도록 분류기를 학습시킨다. 또한 **정당한 입력에 대한 거짓 양성(false positive)**을 최소화하기 위해, **무해한 질의들의 풀(pool)**을 학습 데이터에 포함시킨다.
출력 분류기 (Output classifier)
출력 스트리밍 기능을 보존하기 위해, 출력 분류기의 핵심 요구사항은 연속적인 토큰 스트리밍(continuous token streaming)을 지원하는 것이다(그림 2 참조). 이는 특히 지연 시간에 민감한 애플리케이션(예: 대화형 시스템이나 코딩 어시스턴트)에 중요하다.
이를 달성하기 위해, 우리는 선형 값 헤드(linear value head)를 추가하여 언어 모델을 미세조정한다.
이 값 헤드는 길이 (T)의 전체 토큰 시퀀스에 대한 유해성(harmfulness)을, 그 접두(prefix)인 ($T' \le T$)개의 토큰만을 보고 예측한다(그림 2 참조). 만약 특정 토큰 위치에서 분류기의 예측 점수가 미리 정한 임계값을 초과하면, 출력을 차단하고 스트리밍을 중단한다. 이 접근법은 샘플링 및 토큰 단위 예측 과정에서 중간 활성값을 캐시할 수 있게 해주므로, 스트리밍 분류에 특히 효율적이다.
구체적으로, 토큰 시퀀스 ($t_{1:T}$)와, 해당 전체 시퀀스가 유해한지 여부를 나타내는 레이블 (y)가 주어졌다고 하자. 우리의 목표는 ($T' \le T$)인 접두 시퀀스 ($t_{1:T'}$)로부터 전체 시퀀스의 유해성을 예측하는 모델 $[
p(y = 1 \mid t_{1:T'})
]$ 을 학습하는 것이다. 이를 위해 다음과 같은 손실 함수를 최적화한다:
여기서
$\mathcal{L}_{\text{NTP}}$는 표준 다음 토큰 예측 손실,
$\lambda$는 정규화 하이퍼파라미터,
$\mathcal{L}_{\text{BCE}}$는 이진 교차 엔트로피 손실이다.
직관적으로, 이 손실은 각 토큰 위치에서의 예측 ($p(y = 1 \mid t_{1:T'})$)이 전체 시퀀스 레이블 (y)와 일치하도록 유도하며, 동시에 Radford et al.(2018)을 따라 시퀀스 ($t_{1:T}$)에 대한 다음 토큰 예측 손실을 정규화 항으로 사용한다.
토큰 위치마다 유해성 확률 (p)를 예측하는 방식에는 두 가지 자연스러운 선택지가 있다.
직접 값 헤드 확률을 사용하는 방식
각 값 헤드의 출력을 전체 시퀀스 레이블의 예측값으로 직접 사용한다. 이는
$[
p(y = 1 \mid t_{1:T'}) = \sigma\big(z(t_{1:T'})\big)
]$
로 표현되며, 여기서 ($z(t_{1:T'})$)는 값 헤드의 로짓(logit), ($\sigma(\cdot)$)는 시그모이드 함수이다. 각 토큰 위치가 손실에 독립적으로 기여하고 자체적인 그래디언트 신호를 받기 때문에, 학습이 안정적이다.누적 최대(cumulative maximum) 확률을 사용하는 방식
전체 시퀀스 레이블의 예측값으로
$[
p(y = 1 \mid t_{1:T'}) = \max_{\tau < T'} \sigma\big(z(t_{1:\tau})\big)
]$
를 사용한다. 이는 스트리밍 환경에서의 분류기 사용 방식을 더 잘 반영한다. 실제로 토큰 위치 (T')에서 스트리밍을 중단하면, 이후의 시퀀스는 사실상 유해한 것으로 간주되어 사용자에게 표시되지 않는다. 누적 최대를 사용하면, 값 헤드의 예측 확률은 모델이 전체 시퀀스가 유해하다고 확신할 때에만 증가하게 되며, 이는 경험적으로 성능을 향상시키는 것으로 나타났다. 다만, 그래디언트가 최대값을 갖는 토큰 위치로만 흐르기 때문에, 학습 불안정성을 초래할 수 있다.
우리는 이 두 방식의 장점을 결합하기 위해, 학습 과정 전반에 걸쳐 두 예측 방식을 선형 보간(linear interpolation)한다. 초기 학습 단계에서 안정적인 그래디언트 흐름을 보장하기 위해, 처음에는 직접 값 헤드 확률을 사용하고, 이후 점진적으로 누적 최대 방식으로 전환한다. 구체적으로, 다음과 같은 예측 함수를 사용한다:
$p(y = 1 \mid t_{1:T'}) = (1 - \omega)\cdot \sigma\big(z(t_{1:T'})\big)\omega \cdot \max_{\tau < T'} \sigma\big(z(t_{1:\tau})\big)$
여기서 ($\omega$)는 학습 초기에 0에서 시작하여, 학습의 4분의 3 지점까지 선형적으로 1로 증가하는 가중치 파라미터이다.
여기서 짚고 넘어갈 것이 입력 프롬프트 분류기 / 출력 응답 분류기가 따로 존재하는 것
- 입력 프롬프트가 유해한지는, 아래 테이블 5처럼 입력을 구성해서 학습한다는 것이다.
- 테이블 5의 프롬프트처럼 구구절절 써있고, 맨 뒤에 assistant가 출력할 부분이 harmful or harmless인지 loss걸어서 SFT 식의 학습이다.
- 출력 응답이 유해한지는, 기존 LLM에서 응답에서의 각 토큰의 hidden representation을 가져와서 분류기의 입력으로 쓴다.
- 출력 분류기의 학습은 이것이 유해한지 아닌지 binary classificiation 하는 것으로 mlp layer(value head)이 출력 응답의 분류기이다.
- 테이블 6은 그냥 개념적으로 어떤 것이 유해한지를 보여주는 것이고, 이러한 zero-shot 분류기를 베이스라인으로 실험을 보여주는 것 같음
Reference











댓글
댓글 쓰기