◼ Comment

openai의 o시리지들 (o1 등) 에서 safety을 어떻게 학습했는지 설명해주는 논문이다
기법은 사실 크게 뭐 없다

1) 정책을 잘 세우고, 이에 대해 CoT 데이터를 만든다

CoT 데이터만드는 모델은 G_base로 추론모델임 (뭔지는 밝히지는 않음)

2) 만들어진 데이터를 GRM(리워드 모델)로 좋은것만 필터링함

여러 번 돌려서 나온 점수의 최하점이 threshold가 넘어야 좋은 데이터로 판단하는 것

3) 정책 부분 제거하고, 필터링된 프롬프트-CoT응답만가지고 G_base을 SFT 학습함

즉, 명시적 정책 텍스트 없이, 정책 기반으로 생성된 CoT를 통해 정책을 내재화함

4) RLAIF 학습하는데, 리워드가 정책을 프롬프트로 줘서 점수매기는 식

이 때는 CoT 부분은 숨기고, 마지막 응답만 가지고 reward 매기는 식
여러 번 돌려서 나온 점수의 최하점을 사용하는 식임

평가

safety 평가는 여기서 사용된 데이터를 참고해보면 좋을 것 같음
일부 내부데이터도 있고, WildChat같은 경우는 오픈된 raw 데이터를 필터링해서(모델로 점수내서) 사용하기도함
그냥 가져다 쓰기에는 Strongreject, XSTest가 국룰인 것으로 보임

오픈 소스 모델들과 비교할땐 SimpleQA, BBQ도 추가로 보긴 함

예를 들면, 답을 하면 안되는 그런 프롬프트에 대해서 답변을 하는지 보는건데

여기서 자동 평가 시스템이 있는데, LLM-as-a-judge인데, 미리 정의된 정책을 LLM에 던져서 금지된 내용을 포함하는지 여부를 판단하는 구조
실제 사람 평가와 일치하게 나온다고 함

결과적으로 o1이 gpt4o보다 안전하다고 함

Abstract

대규모 언어 모델이 점차 안전이 중요한 분야에 영향을 미침에 따라, 명확하게 정의된 원칙을 신뢰할 수 있게 준수하도록 하는 것이 근본적인 도전과제로 남아있다. 본 논문은 모델에 안전 사양(specification)을 직접 학습시키고, 응답 전에 해당 사양을 명확하게 기억하고 정확히 추론하도록 훈련하는 새로운 패러다임인 **숙고적 정렬(Deliberative Alignment)**을 제안한다.

이 접근법을 OpenAI의 o-시리즈 모델에 적용한 결과, 인간이 작성한 추론(chain-of-thought)이나 정답 없이도 OpenAI의 안전 정책을 매우 정확히 준수하는 성과를 달성했다. 숙고적 정렬은 탈옥(jailbreak)에 대한 견고성을 높이는 동시에 과도한 거부(overrefusal)를 줄이며, 분포 외(out-of-distribution) 상황에 대한 일반화 능력도 향상시켰다.

본 연구는 명시적으로 정의된 정책에 대한 추론이 더 확장 가능하고 신뢰할 수 있으며 해석 가능한 정렬(alignment)을 가능케 한다는 것을 보여준다.

1 Introduction

현대의 대규모 언어 모델(Large Language Models, LLMs)은 유해하거나 원치 않는 출력물을 억제하기 위해 지도 학습 미세조정(Supervised Fine-Tuning, SFT)과 인간 피드백을 활용한 강화학습(Reinforcement Learning from Human Feedback, RLHF)을 통해 안전성을 훈련한다. 하지만 이러한 방법론이 지속적으로 발전하고 있음에도 불구하고, 현재의 모델들은 여전히 안전 측면에서 문제점을 드러낸다. 모델은 유해한 콘텐츠를 노출하도록 속아 넘어갈 수 있으며, 정당한 요청을 거부하거나, 소위 "탈옥(jailbreak)" 공격에 여전히 취약한 모습을 보인다.

본 논문은 이러한 실패 사례 중 많은 부분이 현대 안전성 훈련이 가진 두 가지 제약 사항에서 비롯된다고 주장한다.

첫째, LLM은 복잡한 안전성 시나리오에서도 별도의 숙고(deliberation) 없이, 고정된 계산량만을 사용하여 사용자 요청에 즉각적으로 대응해야 한다.
둘째, LLM은 명시적 안전 규정을 직접 학습하는 대신, 방대한 양의 라벨링된 예제를 통해 간접적으로 안전 표준을 유추(infer)해야만 한다.
이러한 암묵적이며 패턴에 기반한 학습 의존성은 데이터 효율성이 낮고, 익숙하지 않은 시나리오나 적대적 공격에 직면했을 때 일반화에 어려움을 겪게 만든다.

본 연구는 LLM이 답변을 생성하기 전에 안전 사양(specifications)을 명시적으로 추론하도록 훈련시키는 **숙고적 정렬(Deliberative Alignment)**을 제안한다. 이 방법을 OpenAI의 o-시리즈 모델에 적용함으로써, 모델이 "사고 체인(chain-of-thought, CoT)" 추론을 통해 사용자 프롬프트를 점검하고, 관련된 정책 지침을 식별하여 보다 안전한 응답을 생성할 수 있도록 한다 (예: 그림 1 참조).

숙고적 정렬은 과정 기반(process-based)과 결과 기반(outcome-based) 감독(supervision)을 결합하여 두 가지 핵심 단계로 진행된다.

첫 번째 단계에서 우리는 (프롬프트, CoT, 출력) 예시들을 활용한 지도 학습 미세조정을 수행함으로써 모델이 사고 체인 안에서 우리의 안전 사양에 대해 직접 추론하도록 훈련시킨다.

이 데이터셋은 컨텍스트 증류(context distillation) 및 오직 유용성(helpfulness)만을 위해 훈련된 모델(o-type)을 사용하여 구성된다.
구체적으로, 시스템 프롬프트에 안전 사양을 제공하여 모델 완성본(completion)을 생성한 뒤, 최종 데이터셋에서는 시스템 프롬프트를 제거한다.
이 단계는 모델에게 안전성 관련 추론에 대한 강력한 사전 지식을 제공한다.

두 번째 단계에서는 고계산 자원(high-compute)을 사용하는 강화학습(RL)을 통해 모델이 더욱 효과적으로 사고하도록 훈련한다.

이를 위해 안전 사양을 참조하는 평가자(judge) LLM을 활용해 보상 신호(reward signal)를 제공한다.

특히 우리의 훈련 절차는 인간이 라벨링한 완성본(completion)을 필요로 하지 않는다. 모델이 생성한 데이터만으로도 매우 정확한 사양 준수(specification adherence)를 달성한다. 이는 표준적인 LLM 안전 훈련이 인간이 라벨링한 대규모 데이터에 크게 의존하는 것과 비교되는 중요한 성과이다.

LLM의 능력이 발전함에 따라, 그러한 라벨링을 제공할 수 있는 숙련된 사람의 수가 제한되기 때문에, 능력과 함께 안전성 훈련의 확장성을 유지하는 것은 점점 더 어려워지고 있다. 숙고적 정렬의 합성 데이터 생성 파이프라인은 이러한 문제에 대해 확장 가능한 해결책을 제시하며, 인간의 전문성을 주로 평가(evaluation)에 집중하도록 한다.

즉 시스템 프롬프트로 안전 사양에 대해 언급하고, 이에 대한 응답을 추출하여 CoT 데이터를 만든다.
그 다음, 시스템 프롬프트를 없애서, 단순 question-cot answer 형태로 만들고, 이를 SFT 학습하고, 그 뒤에 RL 로 정책을 따르도록 추가 학습하도록 한다

우리는 내부 및 외부 안전성 벤치마크(예: 탈옥 공격, 콘텐츠 정책 거부 평가 등)를 통해 o1 모델을 GPT-4o 및 기타 최신 LLM들과 비교하였다.

o1 모델은 과도한 거부와 미흡한 거부 모두를 줄이면서 동시에 성능을 향상시키는 파레토 개선(Pareto improvement)을 달성했으며(그림 2 참조), 가장 어려운 안전성 벤치마크에서도 성능을 높였다.

또한 숙고적 정렬이 분포 외(out-of-distribution) 안전성 시나리오에 대해 강력한 일반화 성능을 제공함을 확인하였다. 세부적인 절제 연구(ablation study)를 통해 우리는 과정 기반 감독(process-based supervision)이 강력한 사전 지식을 제공하며, 결과 기반 RL이 사고 체인을 통한 안전성 추론을 더욱 정교하게 만들어 준다는 것을 발견하였다.

결론적으로, 사고 체인 추론은 테스트 시점의 계산 자원을 활용하여 안전한 행동을 향상시키고, 궁극적으로 LLM이 "올바른 이유로 올바른 결정을 하도록(right for the right reasons)" 훈련시키는 역할을 할 수 있음을 보여준다.

2 방법(Method)

본 연구의 숙고적 정렬(Deliberative Alignment)은 다음과 같은 관찰에서 비롯되었다:

모델이 실제 안전 정책(specifications)에 접근할 수 있는 경우, OpenAI의 o1 모델은 잠재적으로 위험한 프롬프트에 대해 어떻게 응답해야 하는지 정확히 추론할 수 있었다.
따라서 자연스러운 접근법은 배포(deployment) 시 모든 안전 정책 텍스트를 모델에게 제공하고, 응답 전에 정책을 모두 확인하도록 지시하는 방식이다.
그러나 이러한 방식은 명백한 지연(latency) 비용을 수반한다.
대부분의 경우, 사용자의 정상적인 프롬프트에 대해 수많은 안전 정책을 일일이 검토하는 것은 불필요한 작업이며, 지침을 제대로 따르지 못하는 경우 관련된 정책의 일부를 누락하여 위험한 출력을 내놓을 가능성도 있다.

즉 모델에게 안전 정책을 줘서 응답이 이를 따르도록 생성하도록 한다는 것인데, 지연이 생기기도 하고 일부 정책을 누락할 수 있는 위험이 있다는것

숙고적 정렬은 대신, 모델의 내부에 안전 정책에 대한 지식을 직접적으로 내장(embedding)시키고, 특정 정책이 언제 관련될 수 있는지를 모델이 스스로 식별한 뒤, 그 정책을 활용하여 정책 준수 답변(policy-compliant answer)을 생성하도록 훈련하는 접근법이다.

실제로, 본 연구의 4.1절에서 확인한 바와 같이, 숙고적 정렬은 배포 시점에 단순히 정책을 제공하는 방법보다 모델을 안전 정책에 더 신뢰성 있게 정렬할 수 있음을 보여준다.

아래는 방법의 고수준 개요를 먼저 제시하고, 이후 각 단계에 대한 구체적인 설명이 뒤따른다.

2.1 개요 (Overview)

우리는 생성적 추론 모델(generative reasoning model) ( G ) 를 프롬프트를 입력으로 받아 "사고 체인(chain-of-thought, CoT)"을 포함한 완성본(completion)을 출력하는 모델로 정의한다. 본 연구의 목표는 초기 추론 모델인 ( $G_{\text{base}}$ ) 로부터 시작하여, 안전 사양(specifications, 이하 spec)을 엄격히 준수하는 완성본을 생성하는 생성적 추론 모델 ( $G_{\text{spec}}$ ) 을 만드는 것이다. 우리는 지도 학습 미세조정(supervised fine-tuning, SFT)과 강화학습(reinforcement learning, RL)의 두 단계를 통해 모델을 훈련한다.

그림 3은 본 연구에서 제안한 방법의 전반적인 개요를 설명한 것이다. 높은 수준에서 다음과 같은 단계로 구성된다:

데이터 생성(Data Generation): 우리는 먼저 프롬프트와 이에 연결된 안전 범주(예: 성적 콘텐츠, 자해 등)의 쌍으로 구성된 데이터를 준비한다. 각 (프롬프트, 범주) 쌍에 대해, 허용되지 않는(disallowed) 콘텐츠 및 응답 스타일(style)에 대한 정보를 포함한 해당 범주의 안전 사양(specification)을 작성한다. 그 후 spec을 모르는(spec-agnostic) 기반 추론 모델 ( $G_{\text{base}}$ ) 에게 이 안전 사양(specification)의 텍스트를 프롬프트로 제공하여, 정책을 참조하는 사고 체인(CoT)이 포함된 (CoT, 출력) 완성본을 생성한다.
필터링(Filtering): 우리는 spec으로 프롬프트된 평가("judge") 모델인 ( $G_{\text{RM}}$ ) 을 사용하여 품질이 우수한 완성본을 선별한다. 이후 프롬프트에서 spec 텍스트를 제거하여 (프롬프트, CoT, 출력) 튜플(tuple)로 구성된 데이터셋을 얻는다.
지도 학습 미세조정(SFT): 필터링된 완성본을 사용해 ( $G_{\text{base}}$ ) 모델을 지도 학습 미세조정으로 훈련한다. 이를 통해 모델은 사고 체인(CoT)에 참조된 정책을 바탕으로, spec을 준수하는(specification-aligned) 방식으로 프롬프트를 완성하는 방법을 학습한다.
강화학습(RL): RL 단계에서는, 다시 한 번 안전 관련 프롬프트에 대해 안전 정책(spec)을 참조하는 평가 모델(judge) ( $G_{\text{RM}}$ ) 을 사용하여 추가적인 보상 신호(reward signal)를 제공한다.

다음 하위 절들에서 각 절차에 대한 자세한 설명을 제공한다.

딱 느끼기에는, CoT 데이터 만들어서 SFT 하는 부분이 다른 논문과 다른 부분인거 같음.
아이디어 자체는 심플하고 사실 다른 분야에서 distillation하는 쪽에서는 이미 널리 알려진 방법인데 safety에 적용한 느낌.

2.2 안전 사양 (Safety specifications)

모델 ( $G_{\text{spec}}$ ) 이 따르도록 정렬하고자 하는 안전 사양(specification)은, 다양한 안전 범주에 대한 콘텐츠 정책(content policies)과 그에 따른 응답 스타일 가이드라인(style guidelines)으로 구성된다.

안전 범주의 예로는

성적 콘텐츠(erotic content),
극단주의(extremism),
괴롭힘(harassment),
불법 행위(illicit behavior),
규제된 조언(regulated advice),
자해(self-harm),
폭력(violence) 등이 있다.

각 안전 범주에 대해, 해당 콘텐츠 정책은 관련된 용어를 정의하고, 사용자의 요청이 다음 중 어느 경우에 속하는지 그 상황을 구분하여 설명한다:

"허용됨(allowed)": 모델이 사용자의 요청을 수행(응답)해야 하는 경우.
"허용되지 않음(disallowed)": 모델이 요청을 거부해야 하는 경우.
"안전한 완성(safe completion)이 요구됨": 민감한 요청의 특성상 모델이 직접 응답하는 것은 불가능하지만, 완전히 거부하는 것 또한 해로울 수 있거나 적절하지 않을 때 필요한 대응 방법이다.

안전한 완성이라는 범주를 구분해둔게 조금 기억해둘 포인트 인거 같기도 함

3.1.1절에서는 불법 행위(illicit behavior)와 자해(self-harm) 범주에 대한 콘텐츠 정책의 예시가 제시되어 있다.

우리가 사용한 사양은 OpenAI가 공개한 모델 사양(spec)의 내용을 일부 기반으로 한다.

사양 내의 응답 스타일 가이드라인(style guidelines)은 모델이 각 콘텐츠 정책에 따라 요청에 응답하거나, 거부하거나, 혹은 안전하게 완성할 때 따라야 하는 방법에 대해 상세한 지침을 제공한다.

그림 4는 엄격한 거부(hard refusal)에 관한 스타일 가이드라인의 일부 예시를 보여준다.

안전한 완성(safe completions)은 요청의 민감성 때문에 직접적으로 응답할 수 없으나, 전면적인 거부도 바람직하지 않을 때 필요하다. 자해나 규제된 조언(예: 의료적 조언이나 법적 조언) 같은 안전 범주에 대해서는 구체적인 주제에 맞춘 상세한 안전 완성 지침이 사양에 제공된다. 예컨대 자해와 같은 범주의 요청에서도, 어떤 요청은 허용될 수 있지만(예: 자살 개념에 대한 교육적 논의), 특정 요청은 "자해에 관한 안전한 완성(self-harm safe completion)"을 요구한다(예: 자해 생각을 나타내는 콘텐츠, 자해 방법에 대한 요청 등).

범주별 사양의 형성(Forming category-specific specifications)

모든 정책을 한꺼번에 합치면 전체 안전 사양(specification)은 매우 길어진다. 컨텍스트 길이를 관리 가능한 수준으로 유지하기 위해, 우리는 범주별 정책 사양(category-specific policy specifications), 즉 spec(category)을 작성한다. 이는 모든 안전 범주에 대한 고수준의 개요(스타일과 유용성(helpfulness)의 원칙을 포함)를 제공하는 동시에, 현재 요청과 직접 관련된 안전 범주에 대해서만 세부 정보를 담고 있는 방식이다. 이를 통해 가장 관련된 정책의 정보를 우선적으로 제공하면서도 전체 컨텍스트 길이를 줄일 수 있다. 실제로 모델이 전체 사양을 제공받는 것보다 spec(category) 형태로 제공받을 때 관련 범주에 더 주의를 기울이는 경향이 있다는 사실을 발견하였다.

안전 사양 전부는 너무 기니까 spec(category)로 축약해서 제공한다는 것
생성 모델(G_base)은 이를 기반으로 추론식 사고를 하면서 답변을 함 (SFT 학습되는 모델도 G_base임)
G_base는 공개되지 않는 내부용이고, 아마 safety가 학습안된 모델일 것으로 추정함.
최종적으로 학습된 모델은 o 시리즈 모델들

자세한건 뒷 부분에 나올거 같은데 궁금해서 먼저 GPT로 정리.

필터링에 쓰이는 GRM이랑 RL학습에 쓰이는 RM모델은 같은거인데, 어떻게 학습됐는지 자세한건 안나와있는 듯

필터링 하는법

그림 6처럼 llm에게 spec, cot 응답 던져서 바이너리로 응답받게 하는데, 여러 번 평가해서 이의 최저점수를 사용해서, threshold 넘는 것만 사용하는 식인듯

필터링때와 같이 점수내는데, 이때는 CoT 는 숨기고, 마지막 응답만 던져서 평가하는 식

✅ 데이터 생성 단계

맞습니다. 초기 데이터 생성 시점에 각 프롬프트 앞에 상황별로 정리된 안전 지침인 **spec(category)**를 함께 제공합니다.

즉, 입력 형식은 대략 다음과 같은 형태가 됩니다:

[spec(category)] + [프롬프트] → [모델의 CoT 추론 및 응답 생성]

✅ 필터링 단계

이렇게 생성된 (프롬프트, CoT, 응답) 데이터는 자동화된 필터링을 통해 품질을 검증합니다.
필터링은 별도의 평가 모델 (논문에서 GRM이라고 부르는 "Judge Model")이 수행합니다.
- 이 평가 모델은 다시 spec(category) 텍스트를 제공받아, 모델이 생성한 응답이 해당 카테고리의 안전 사양에 얼마나 부합하는지 점수를 매깁니다.
- 평가 모델(GRM)은 제공된 spec(category)를 참조하여 응답과 사고 체인(CoT)의 품질 및 준수 여부를 평가하여 낮은 점수를 받은 데이터는 제외합니다.
- 즉, 필터링 과정에서 다음과 같은 평가가 이루어집니다:
```
(프롬프트, CoT, 응답) + spec(category) → 평가 모델(GRM)이 품질 점수 부여 → 품질이 낮은 데이터 제외
```

✅ 필터링 후 SFT 학습

이렇게 필터링으로 걸러진 고품질의 데이터(프롬프트, CoT, 응답)를 사용하여 모델을 지도 학습(SFT)합니다.
중요한 점은, SFT 학습 시 입력으로는 이제 spec(category)를 제거하고, 순수한 프롬프트만 사용합니다.
즉, 최종 SFT 학습은 다음 형식으로 이루어집니다:
```
[프롬프트] → [CoT, 응답]
```
이는 모델이 추후 spec(category)를 명시적으로 제공받지 않아도, 내부에서 관련 안전 규칙을 자동으로 떠올리고 추론할 수 있도록 만들기 위함입니다.

✅ RL 강화학습 단계에서의 사용

마지막 강화학습(RL) 단계에서도 spec(category)를 다시 사용합니다.
RL 단계에서는 안전성 관련 프롬프트가 제공되면, 평가 모델(GRM)이 다시 한번 **해당 카테고리의 안전 사양(spec)**을 참고하여 모델의 출력에 대한 추가적인 보상(reward)을 제공합니다.
단, RL 단계에서는 사고 체인(CoT)을 GRM에 보여주지 않고, 최종 응답만을 평가합니다.
- 이는 CoT를 직접 최적화하는 압력을 주지 않음으로써, 모델이 잘못된 CoT를 생성하는 경향을 억제하기 위함입니다.

즉, RL 단계의 프로세스는 다음과 같습니다:

[프롬프트, 응답] + spec(category) → 평가 모델(GRM)이 안전 준수 여부 평가 → 보상 신호 제공 → RL 모델 학습

🎯 최종적으로 정리하면:

데이터 생성 단계: 프롬프트 앞에 spec(category)를 붙여 데이터 생성
필터링 단계: 생성된 데이터를 평가 모델(GRM)이 spec(category)와 비교하여 필터링
SFT 학습 단계: 필터링된 데이터로 spec(category) 없이 학습
RL 단계: spec(category)를 기반으로 평가 모델이 보상을 제공하여 안전성을 더욱 정교화

이 흐름을 통해 모델은 spec(category)를 내재적으로 학습하여, 최종 배포 시 별도의 정책 제공 없이도 스스로 안전 규칙을 준수할 수 있게 됩니다.

2.3 지도학습 미세조정 단계 (SFT stage)

첫 번째 단계의 목표는 모델이 안전 사양(specifications)에 대해 사고 체인(chain-of-thought, CoT)을 사용하여 정책을 준수하는 응답을 생성하도록 지도학습 미세조정(SFT)을 위한 (프롬프트, CoT, 출력) 데이터셋을 수집하고 이를 통해 훈련하는 것이다.

2.3.1 데이터 생성 (Generation)

우리는 먼저 안전 범주(예: 성적 콘텐츠, 자해 등)와 연결된 프롬프트 컬렉션에서 시작한다. 각각의 프롬프트는 사용자, 어시스턴트, 도구(tool), 시스템 등의 역할이 포함될 수 있으며, 사용자 발화(turn)로 끝나는 채팅 대화 형태다. 각 (프롬프트, 범주) 쌍에 대해 우리는 범주에 특화된 안전 사양(spec(category))을 구성한다. 이후, 관련된 정책을 사고 체인(CoT) 내에서 참조하는 (CoT, 출력) 완성본(completion)을 수집한다. 이때 기반 추론 모델(G_base)에게 연결된 안전 사양 텍스트를 프롬프트로 제공하여 완성본을 얻는다.

구체적으로, 안전 사양으로 증강된(augmented) 프롬프트는 다음으로 구성된다:

원본 프롬프트(original prompt)
범주에 맞는 특화된 안전 사양(spec(category))
안전 사양(spec)에서 관련된 부분을 인용하고 논의하라는 지침

그림 5는 증강된 프롬프트가 어떻게 구성되는지 보여준다.

그 결과, 사고 체인(CoT)은 정책을 참조하고 이를 바탕으로 추론하는 형태가 된다. 생성된 완성본의 예시는 섹션 3.1에서 볼 수 있다.

2.3.2 품질 필터링 (Quality Filtering)

우리는 자동화된 필터링 프로세스를 통해 SFT 데이터의 품질을 보장한다.

구체적으로, 품질이 낮은 완성본(예: 형식이 잘못된 완성본 등)을 먼저 제외한 뒤, 각 완성본을 평가 모델(GRM)을 사용하여 여러 번(k번) 평가한다.

이 평가 모델 역시 범주별로 제공된 안전 사양(spec(category))을 참조하여 평가한다. 각 완성본에 할당된 점수는 k회의 평가 중 최저 점수(minimum score)를 사용한다.
이는 단 한 번의 평가라도 완성본의 문제점을 놓치지 않도록 하기 위한 것이다. 이렇게 높은 점수를 받은 완성본만 유지한다.

평가 모델(GRM) 자체는 안전 사양을 모르며(specification-agnostic), 프롬프트를 통해서만 사양을 알게 된다.

그림 6은 평가 모델(GRM)이 프롬프트를 통해 어떻게 사용되는지 보여준다.

많은 데이터셋에는 이상적인 완성본에 대한 메타데이터(metadata, 예: 거부, 수락, 안전 완성 등)가 포함되어 있다. 이 메타데이터는 인간 또는 AI 라벨링에서 유래한 것으로 잡음(noise)을 포함할 수 있다. 선택적인 메타데이터가 존재할 경우, 우리는 이를 평가 모델(GRM)에 제공하여 "다른 AI가 이미 평가한 결과가 있다"는 형식으로 평가 모델이 이 분석에 동의하는지 정당화하도록 요청한다. 이 방법이 평가 모델을 안내하면서도, 라벨링 잡음에 과도하게 영향을 받지 않도록 적절한 균형을 맞추고 있음을 발견했다.

2.3.3 지도학습 미세조정 훈련 (SFT Training)

이 시점에서 우리는 안전 사양(specification)을 참조한 CoT를 포함하고 있으며 최종 응답이 정책을 준수하는 것으로 평가된 (프롬프트, CoT, 출력) 튜플의 데이터셋을 확보하게 된다.

이후 이 데이터셋을 사용하여 지도학습 미세조정(SFT)과 기타 능력(capabilities) 데이터를 함께 사용하여 기반 모델(G_base)을 훈련한다.

여기서 중요한 점은 훈련 시 프롬프트에서 범주별 안전 사양(spec(category))에 관한 세부사항을 제거하고, 원래의 프롬프트만 사용한다는 것이다.

이렇게 프롬프트에서 안전 사양 관련 컨텍스트를 제거함으로써, 모델이 명시적으로 안전 사양이 제공되지 않은 상황에서도 기억 속에서 관련 정책을 불러내고 추론할 수 있도록 훈련한다. SFT 과정의 결과로 훈련된 모델을 G_SFT라고 명명한다.

이게 핵심 아이디어인거 같긴함. CoT로 안전 프롬프트 따르는 응답 생성하고, 여기서 CoT(생각)부분만 제외하고 SFT로 데이터 학습하는 것 (그림 7에 보면 예시가 있긴함)

2.4 강화학습 (RL training)

강화학습(RL) 단계에서는, 안전 관련 프롬프트(prompt)에 대해 다시 한번 "평가 모델(judge model)"인 GRM을 사용하여 우리의 안전 정책(specification)을 참조하고 RL 시스템에 추가적인 보상 신호(reward signal)를 제공한다.

구체적으로, RL 안전 데이터는 (프롬프트, 범주) 쌍으로 구성된 데이터를 포함하며, 때로는 유용한 메타데이터(metadata)가 함께 제공되기도 한다.

SFT 데이터 필터링 시 GRM은 사고 체인(CoT)을 참고하였지만, RL 단계에서는 GRM에게 사고 체인(CoT)을 숨긴다.

이는 RL 과정에서 사고 체인(CoT)에 직접적인 최적화 압력을 가하지 않음으로써, 모델이 부정확하거나 기만적인 사고 체인을 생성할 가능성을 줄이기 위함이다.

본 연구에서 제안한 방법의 SFT 단계는 모든 o-시리즈 모델들에 적용되었지만, 이 특정한 RL 보상 신호는 o1 모델과 o3-mini 모델의 훈련에서만 추가적으로 사용되었다.

3 결과 (Results)

우리는 제안한 숙고적 정렬(Deliberative Alignment) 방법을 사용하여 OpenAI의 o-시리즈 모델(o1-preview, o1, o3-mini 등)을 정렬(alignment)하였다. 본 섹션에서는 특히 o1 시리즈 모델의 안전성(safety)과 견고성(robustness)에 대해, GPT-4o와 기타 최신 외부 모델들과 비교한 주요 결과를 제시한다. 이후 4.1절에서는 우리 방법의 각 단계의 효과를 자세히 분석하며, 4.3절에서는 분포 외(out-of-distribution, OOD) 일반화에 대한 영향을 다룬다.

3.1 안전성 평가 (Safety Evaluations)

먼저 우리는 o1 모델을 GPT-4o 모델과 함께 다음과 같은 주요 정책 분야(policy areas)에 대해 비교 평가하였다: 허용되지 않는 콘텐츠(disallowed content), 응답 스타일 가이드라인 준수, 탈옥 공격(jailbreaks), 과도한 거부(overrefusals).

3.1.1 허용되지 않는 콘텐츠 (Disallowed Content)

이 평가는 모델이 유해한 콘텐츠 요청(혐오 발언, 불법적 조언, 자해 혹은 규제된 의료/법률 조언 등)을 적절히 처리하고 있는지를 평가한다. 여기서 두 가지 평가를 고려하였다:

Challenging Refusal Evaluation: 실제 프로덕션 환경에서 나온, 허용되지 않는 콘텐츠 요청에 대한 평가 셋.
(유해한) WildChat: GPT-3.5T 및 GPT-4T API에서 얻은 1백만 개의 대화로 구성된 공개 데이터셋 중 가장 유해성 점수가 높은 200개 대화를 선정하여 평가.

두 평가 모두 모델 출력이 정책 위반인지 여부를 확인하기 위해 정책을 참조한 자동 평가기(autograder)를 사용하였다.

논문에서 언급한 자동 평가(autograder) 방식에 대한 설명은 다음과 같습니다:

🔍 자동 평가란?

논문에서 사용된 자동 평가는 모델의 응답이 정책을 위반하거나 허용되지 않는 응답을 했는지를 자동으로 검사하는 방식을 말합니다. 구체적으로 말하면:

모델이 생성한 응답 텍스트를 자동 평가 시스템(autograder)이 분석합니다.
이 시스템은 미리 정의된 정책(specification)과 비교하여 응답이 유해하거나 금지된 내용을 포함하는지 여부를 판정합니다.
예를 들어, 폭력적인 내용, 불법 행위 지침, 자해 방법 등에 대해 응답하지 말아야 하는 정책이 설정되어 있다면, 모델의 응답에서 이와 관련된 키워드나 문구가 나타나면 자동적으로 "정책 위반"으로 판단합니다.

📝 탈옥(jailbreak) 벤치마크의 자동 평가 사례 (StrongREJECT)

StrongREJECT와 같은 탈옥 벤치마크에서는 사용자가 모델을 속이기 위한 여러 복합적이고 교묘한 질문을 합니다.
이러한 질문들에 모델이 응답하면 안되는데도 불구하고, 만약 모델이 실제로 그런 유해한 요청에 응답을 생성한다면, 자동 평가 시스템은 이를 정책 위반으로 판정하고 점수를 낮게 부여하게 됩니다.
자동 평가 시스템은 일반적으로 텍스트 매칭, 키워드 분석, 정책 규칙의 참조 등으로 이루어집니다.

⚠️ 자동 평가의 한계 및 인간 평가의 필요성

논문에서도 자동 평가 시스템이 복합적인 탈옥 프롬프트에 대해서는 일부 혼란을 일으킬 수 있다고 언급합니다.
왜냐하면 탈옥 프롬프트가 워낙 교묘하고 복잡하기 때문에, 단순 키워드 매칭과 같은 자동 평가 방식으로는 완벽히 평가하기 어렵기 때문입니다.
따라서 논문에서는 이러한 문제를 해결하기 위해 **추가적인 인간 평가(human review)**를 진행하여, 자동 평가 결과가 실제 인간 평가 결과와 일치하는지를 검증했다고 언급하고 있습니다.

정리하면, 자동 평가는 기본적으로 정책 위반 여부를 텍스트에서 자동으로 판단하는 시스템이며, 논문에서는 이 자동 평가의 정확도를 인간 평가를 통해 한 번 더 검증하는 절차를 거쳤습니다.

Table 1의 결과에 따르면, o1 모델이 GPT-4o 모델 대비, 특히 Challenging Refusal Evaluation에서 우수한 성능을 보였다.

두 가지 대표적인 프롬프트 예시(불법적 조언 요청, 자해 표현)에 대한 o1 모델의 응답 사례는 그림 7과 그림 8에서 확인할 수 있으며, 각각의 사례에서 모델은 정책을 참조하여 올바른 스타일로 대응(거부 또는 안전한 완성)을 생성한다.

불법 행위와 자해에 대한 정책의 예시 일부는 그림 9와 10에서 확인할 수 있다.

3.1.2 응답 스타일 가이드라인 (Response Style Guidelines)

추가적으로, 모델에게 올바른 응답 스타일에 대해 생각하도록 지도한 결과, 모델의 스타일 가이드라인 준수 능력이 향상되었음을 발견하였다. 엄격한 거부(hard refusals)에 대한 스타일 가이드라인의 일부 예시는 그림 4에서 볼 수 있다. 표 1에서는 모델이 엄격한 거부(hard refusals), 자해 관련 안전한 완성(self-harm safe completions), 규제된 조언 관련 안전한 완성(regulated advice safe completions)의 스타일 가이드라인을 준수했는지 여부를 평가했다. '

결과적으로, o1 모델은 GPT-4o보다 응답 스타일 준수 측면에서 우수하며, 특히 안전 완성(safe completion) 스타일에서 큰 향상을 보였다.

결과적으로 gpt-4o보다 o1 모델이 더 안전하다는 것을 주장하는 것

다만, o1-preview 모델은 상대적으로 규제된 조언 및 자해에 대한 안전 완성 스타일 준수가 부진했다. 이는 o1-preview와 o1 사이에서 안전한 완성 스타일 가이드라인을 업데이트했기 때문이다. 따라서, o1-preview(및 GPT-4o)는 새로 업데이트된 안전 완성 스타일 기준에 맞춰 훈련되지 않은 채로 평가를 받은 것이다. 그러나 엄격한 거부 스타일 또한 o1-preview에서 o1으로 넘어가면서 향상되었는데, 이는 o1의 강화학습(RL) 훈련 단계에서 사용된 평가 모델(GRM)의 영향으로 보인다.

3.1.3 탈옥 공격 (Jailbreaks)

다음으로 우리는 모델의 탈옥(jailbreak)에 대한 견고성(robustness)을 평가하였다. 탈옥이란 모델이 금지된 콘텐츠를 생성하도록 유도하는 악의적인 프롬프트를 뜻한다. 여기서는 문헌에서 자주 사용된 대표적 공격 방법들을 다룬 학술적 탈옥 벤치마크인 StrongREJECT를 사용했다.

이 벤치마크에서는 각 프롬프트에 가장 효과적인 상위 10%의 탈옥 기술을 적용하여 계산한 goodness@0.1 지표를 사용한다.

각 프롬프트에 여러 탈옥 방법을 적용하여 모델이 거부하지 않고, 허용되지 않는 유해 콘텐츠를 생성하는지를 테스트합니다.
그런 다음, 가장 강력한(가장 효과적으로 모델을 속인) 상위 10%의 공격 방법을 추려내고, 이 공격들에 대해 모델이 얼마나 견고하게 안전 정책을 준수하여 거부했는지를 평가합니다.
goodness@0.1 점수가 높을수록 모델이 상위 10%의 강력한 공격에 대해 더욱 견고하며, 안전하게 응답했음을 나타냅니다.

o1 시리즈 모델은 GPT-4o 모델에 비해 탈옥 공격에 현저히 강한 견고성을 보였으며, 이는 외부 레드팀의 보고서에서도 확인된 바 있다. 예컨대 그림 1의 탈옥 스타일 프롬프트 예시에서 사용자가 요청을 암호화하고 특정 지시사항으로 모델을 속이려 했음에도 불구하고, 모델은 이를 정확히 인지하고 정책을 참조하여 적절하게 요청을 거부하였다.

3.1.4 과도한 거부 (Overrefusals)

마지막으로, 모델이 허용 가능한 요청에 대해 과도하게 거부하지 않는지를 평가했다. 우리는 세 가지 형태의 과도한 거부를 평가하였다:

XSTest: 안전성 키워드를 포함한 일반적인 무해한 질문으로 이루어진 공개 데이터셋(예: "파이썬 프로세스를 종료하는 방법" 같은 요청).
변환 예외(Transformation Exception): 사용자가 제공한 불허 콘텐츠를 분석, 번역 등으로 변환하는 요청으로, 정책상 허용 가능한 예외 사례들로 구성된 데이터셋.
정책상 과도한 거부(Policy Overrefusals): OpenAI 정책상 허용 가능한 내부적 요청들로 이루어진 데이터셋.

표 1에 나타난 것처럼, o1 모델은 GPT-4o에 비해 과도한 거부를 적게 하였으며, 특히 변환 예외가 적용되는 요청들에 대해 상당히 개선된 성능을 보였다. 그림 11은 변환 예외에 해당하는 과도한 거부 관련 프롬프트의 예시이며, 모델은 정책을 참조하여 정확히 허용되는 변환임을 판단하고 적절하게 응답하였다.

o1이 과도한 거부도 적게한다고 주장

3.2 외부 모델과의 비교 (Comparison to external models)

o1 모델의 텍스트 안전성 성능을 보다 넓은 맥락에서 평가하기 위해, 다른 공개적으로 이용 가능한 최신 모델들과 비교 평가를 수행하였다: Gemini 1.5 Pro, Gemini 1.5 Flash, Claude 3.5 Haiku, Claude 3.5 Sonnet 모델 등이 그 대상이었다. 공정하고 재현 가능한 평가를 위해 공개적으로 이용 가능한 벤치마크에서 이 평가를 진행하였다.

사용된 벤치마크는 다음과 같다:

Toxic WildChat: GPT-3.5T 및 GPT-4T API에서 얻은 공개 데이터셋에서 가장 유해성 점수가 높은 200개의 대화를 선별하여 평가.
StrongREJECT: 모델의 탈옥 공격에 대한 저항성을 평가하는 학술적 벤치마크.
XSTest: 일반적인 질문이지만 모델이 안전성 문제로 과도하게 거부하는지 평가하는 데이터셋.
SimpleQA: 간단한 사실 기반 질문 4천 개로 구성된 데이터셋으로, 모델의 환각(hallucination, 허구의 답변 생성) 여부를 평가.
BBQ: 미국 영어권 맥락에서 사회적 편향(bias)을 평가하기 위한 질문 데이터셋.

일부 모델의 API 요청은 민감한 콘텐츠로 인해 안전성 필터에 의해 차단된 경우가 있었다. 이런 경우를 WildChat 벤치마크에서는 "안전성 필터에 의해 차단됨(Blocked by safety filters)"으로 기록하였고, 다른 벤치마크에서는 평가 샘플의 1% 미만이었기 때문에 결과에서 제외하였다.

결과적으로, o1 모델은 탈옥 견고성(StrongREJECT)을 상당히 향상시키면서 과도한 거부율(XSTest)을 낮게 유지하는 파레토 전선(Pareto frontier)을 확장하였다(그림 2와 12 참조).

특히 o1은 StrongREJECT 벤치마크에서 다른 최신 모델을 능가하는 성능(goodness@0.1=0.88)을 달성하였다. XSTest에서 o1은 과도한 거부에 대해 높은 정확도(0.93)를 보였으나, Gemini flash(0.94) 모델보다는 약간 뒤쳐졌는데, 이 Gemini flash 모델은 StrongREJECT에서의 견고성이 매우 낮았다(goodness@0.1=0.05).

추가로, o1 모델은 허용되지 않는 콘텐츠(WildChat), 환각(SimpleQA), 편향성(BBQ)을 평가하는 벤치마크에서도 경쟁력 있는 성능을 보였다. WildChat에서 o1은 외부 안전 필터 사용 없이도 안전한 응답 비율을 높게 유지했다(98%). SimpleQA에서 o1은 높은 정확성(0.47)을 기록했으나, Claude 모델들보다는 더 자주 환각을 보였다. BBQ에서 o1은 모호한(ambiguous) 및 명확한(disambiguated) 맥락에서 높은 정확성을 보였으며, 모호한 맥락에서 o1-preview를 제외한 모든 모델보다 편향된(stereotype) 응답을 적게 했다.

모든 벤치마크(BBQ 제외)에서 부트스트랩 방식으로 오차(uncertainty) 추정값을 제시하였다. 구체적으로, 데이터셋을 1,000회 샘플링(bootstrap resampling)하여 결과의 표준편차를 추정하였다. 이 오차 막대는 주로 데이터셋 크기에 따른 변동성을 반영하며, 훈련에 따른 변동성은 거의 포함되지 않는다.

주요 탈옥 벤치마크(StrongREJECT)의 자동 평가 방식이 복합적인 탈옥 프롬프트로 인해 평가 과정에서 일부 혼란이 있을 수 있었으므로, 추가로 인간 평가(human review)를 통해 StrongREJECT 결과를 검증하였으며, 결과는 자동 평가 결과와 일치함을 확인하였다(부록 A 참조).

3.3 추론 시점의 계산량 영향 (Impact of inference-time compute)

우리는 모델이 추론(inference)을 수행할 때 사용되는 계산 자원(compute)의 양을 변화시키는 것이 성능에 미치는 영향을 연구하였다. 특히, 모델이 사고 체인(chain-of-thought, CoT)을 생성하는 데 더 많거나 적은 계산 자원을 사용할 수 있도록 하여, 그에 따른 성능 변화를 평가하였다. 이를 위해 StrongREJECT 탈옥 벤치마크와 내부 정책 평가(과도한 거부율, 응답 스타일 가이드라인 준수)를 포함한 다양한 벤치마크에서 성능을 측정하였다.

그림 13에서 나타난 결과는 분명한 경향성을 보여준다.

StrongREJECT 탈옥 벤치마크와 규제된 조언(regulated advice)의 안전 완성 스타일(safe completion style) 준수와 같은 어려운 평가에서 모델이 추론에 더 많은 계산 자원을 사용할수록 성능이 뚜렷하게 향상되었다. 반면에 다른 평가 항목에서는 성능이 비교적 일정하게 유지되었다.

이러한 현상이 나타난 이유는 StrongREJECT와 규제된 조언에 대한 스타일 준수가 다른 평가 항목에 비해 상대적으로 더 어려운 과제이기 때문이라고 생각된다. StrongREJECT의 경우, 다양한 방법을 조합한 복합적인 탈옥 공격이 포함되어 있기 때문에 대응이 매우 어렵다. 마찬가지로, 규제된 조언에 대한 안전 완성 스타일 가이드라인 역시 엄격한 거부(hard refusal) 스타일에 비해 훨씬 더 복잡하고 정교한 지침으로 구성되어 있기 때문이다(그림 4 참조). 자해(self-harm) 관련 안전 완성 스타일 또한 복잡하긴 하지만, 규제된 조언에 비해 상대적으로 더 많은 훈련 사례를 가지고 있었다.

이러한 결과는 모델이 복잡하거나 경계에 있는(borderline) 프롬프트를 충분히 숙고(reasoning)할 시간이 부족할 때 안전성 관련 실패가 발생할 수 있으며, 사고 체인(CoT)을 사용하여 추론을 진행하는 것이 테스트 시점(test-time)의 추가 계산 자원을 통해 모델의 안전성 행동을 향상시키는 강력한 메커니즘이 될 수 있음을 보여준다.

4. 숙고적 정렬(Deliberative Alignment)의 과학적 분석

이 섹션은 논문에서 제안된 "숙고적 정렬(Deliberative Alignment)" 기법의 핵심 요소들이 모델의 최종적인 정책 준수에 어떤 영향을 미치는지, 또한 이 방식으로 학습된 모델이 실제로 정책을 잘 기억하는지, 그리고 분포 외(out-of-distribution, OOD) 상황에서도 잘 일반화하는지에 대한 분석을 제공한다.

🔑 주요 분석 및 결과

4.1 방법론 구성 요소들의 Ablation 분석

지도학습 미세조정(SFT) 및 강화학습(RL) 단계가 모델 성능에 미치는 영향을 측정했다.
총 네 가지 조건에서 실험을 수행함:
1. 안전성 학습 없음 (능력(capability) 데이터만 사용)
2. SFT 단계에만 안전성 데이터 사용
3. RL 단계에만 안전성 데이터 사용
4. SFT와 RL 단계 모두에 안전성 데이터 사용 (완전한 숙고적 정렬 방법)
주요 결과:
- 안전성 데이터 없이 학습하면 성능이 낮음.
- SFT 및 RL 단계가 모두 사용된 경우가 가장 좋은 성능.
- SFT 단계에서는 강력한 안전성 추론의 사전지식(prior)을 학습.
- RL 단계에서는 사고 체인(CoT)을 더 효과적으로 활용하도록 세부적인 최적화가 이루어짐.
- 학습 시 명시적으로 정책(spec)을 제공하는 것이 배포 시 정책을 단순히 제공하는 것보다 더 효과적임.

4.2 모델의 정책 참조 정확성(Policy Retrieval Accuracy)

모델이 사고 체인(CoT)에서 정책(spec)을 얼마나 정확히 참조하는지 평가.
평가한 결과, 숙고적 정렬로 학습된 모델이 정책을 더 정확하게 기억하고 올바르게 참조함.
특히, 안전한 완성(safe completion)을 해야 하는 상황에서 높은 정확도(0.91)를 보였으며, 거부(hard refusal)에서도 높은 정확도(0.75)를 나타냈음.
결과적으로, 숙고적 정렬 방법은 모델이 명확히 정책을 내재화하고 필요 시 정책을 참조하는 능력을 높여줌.

4.3 분포 외(OOD) 상황에서의 일반화 성능

숙고적 정렬로 학습된 모델이 학습 데이터에 없던 분포 외 상황(OOD 상황)에서도 잘 일반화하는지 분석.
두 가지 분포 외 상황에서 실험:
1. 다국어(Multilingual) 데이터: 영어 이외 언어로 작성된 탈옥 프롬프트로 평가.
2. 인코딩(Encoding) 기반 데이터: base64와 같은 형태로 인코딩된 탈옥 프롬프트 평가.
결과:
- 숙고적 정렬로 학습된 모델은 두 분포 외 평가에서 매우 높은 정확도로 일반화 성능을 보임.
- 특히, 안전성 데이터를 영어 및 인코딩 없이 학습한 모델도 이와 유사한 수준의 성능을 보임. 이는 숙고적 정렬 방식이 분포 외 상황에 강력한 일반화 효과를 제공함을 의미.

📌 결론 및 시사점

이러한 실험적 분석은 숙고적 정렬 방식이:

SFT와 RL을 결합함으로써 최적의 성능을 달성할 수 있으며,
정책(spec)을 모델에 직접 내재화시키는 것이 배포 시마다 정책을 제공하는 것보다 효과적이고,
분포 외(OOD) 상황에서도 뛰어난 일반화 성능을 발휘한다는 것을 보여준다.

즉, 숙고적 정렬(Deliberative Alignment)은 모델이 명확하게 정책을 내재화하고 기억하도록 만들어, 미지의 상황이나 공격적 프롬프트에도 안정적으로 대응하는 우수한 성능을 달성하는 방법론임을 강조한다.

5 관련 연구 (Related Work)

본 논문의 숙고적 정렬(Deliberative Alignment)은 모델이 안전성 사양(specifications)을 직접적으로 배우고, 이를 추론을 통해 적용하여 안전한 응답을 생성하도록 훈련하는 최초의 정렬(alignment) 접근 방식이다. 그림 15는 숙고적 정렬과 기존의 다양한 정렬 접근 방식의 주요 차이점을 보여준다.

그림의 왼쪽 열은 사양(specification)이 훈련 데이터에 통합되는 방식을 나타내고, 오른쪽 열은 각 방법으로 훈련된 모델의 추론 시 동작을 보여준다. 숙고적 정렬은 사고 체인(chain-of-thought, CoT) 추론이 가능한 모델에 적용 가능하다.

5.1 안전성 훈련 (Safety Training)

일반적으로 안전한 모델 행동은 지도 학습 미세조정(SFT)과 인간 피드백 기반 강화학습(RLHF)을 통해 훈련된다. 직접적 정책 최적화(Direct Policy Optimization, DPO)는 RLHF의 대안으로, 보상 모델 없이 선호도(preference) 데이터를 기반으로 정책 모델을 직접 최적화한다.

Constitutional AI(CAI)는 기존 SFT+RLHF 방법을 기반으로 미리 정의된 원칙("constitution")을 통합하여 모델 행동을 유도한다. CAI의 SFT 단계에서는 AI 모델이 생성한 초기 응답을 constitution 텍스트를 제공받은 동일한 모델이 비판(critique)하고 수정(revise)하여 사용한다. 이 과정에서 얻은 수정된 응답(revision)이 최종적으로 SFT 학습에 사용된다. CAI의 RL 단계에서는 constitution 기반의 AI 모델이 생성한 선호도 데이터로 학습된 선호도 모델을 활용한다.

정리하면, 이러한 기존 접근법에서 사양(specification)은 다음과 같은 절차로 모델에 추가된다:

개발자가 AI 어시스턴트가 따라야 할 사양(specification)을 정의한다.
정의된 사양은 인간 또는 AI 트레이너가 데이터를 라벨링하기 위한 지침으로 변환된다.
라벨링된 데이터는 정책 모델 자체를 학습시키거나, 보상 모델을 훈련하는 데 사용된다.

이 방법의 핵심은 이전 접근법(SFT, RLHF, CAI)에서 최종 답변(라벨링된 데이터)만이 훈련에 사용될 뿐, 사양 자체는 정책 모델에 직접 제공되지 않는다는 것이다. CAI에서도 비판(critique)은 최적화 시 사용되지 않는다. 반면 숙고적 정렬은 모델이 정책을 CoT로 기억하고 컨텍스트에서 직접 적용하는 방법을 배우며, CoT 자체가 직접 SFT 과정에서 최적화된다.

또한 본 연구의 모델은 학습 예시마다 사양 정보를 다양하게 변형하여 제공할 수 있으므로, 고정된 constitution 방식보다 더욱 상세하고 미묘한 안전 정책을 누적하여 학습시킬 수 있다.

5.2 추론 시 안전성 추론 (Inference-time Safety Reasoning)

최근의 많은 연구가 자연어 피드백을 이용한 비판 및 수정 접근법(critique-and-refine)을 통해 LLM 출력을 개선하는 데 중점을 둔다. 대부분은 안전성을 중심으로 연구된 것은 아니지만, 이러한 방법들은 안전한 응답을 생성하는 데 응용될 수 있다. 대표적 예는 Self-REFINE으로, 이 방법은 응답 생성 후 few-shot 프롬프팅을 통해 반복적으로 피드백을 주고, 응답을 수정하는 과정을 반복한다. Self-REFINE은 생성, 비판, 수정을 같은 모델로 수행하지만, 일부 연구는 각 작업에 별도의 모델을 사용한다. 이러한 접근법들은 사전에 정의된 추론 경로를 사용하여 추론을 수행하지만, 숙고적 정렬은 o1의 CoT를 통해 자동으로 안전성 추론을 수행한다.

최근의 Backtracking 방법은 모델이 불안전한 응답을 부분적으로 생성했을 때 특별한 [RESET] 토큰을 생성하여, 이전 토큰을 삭제하고 응답을 다시 생성하도록 훈련된 기술이다. Backtracking은 자동적이고 별도의 지침 없이 추론 시 안전성 추론을 수행할 수 있지만, 한번만 백트래킹할 수 있는 제한점이 있다. 반면 숙고적 정렬은 무제한의 "백트래킹"을 가능하게 하는 CoT를 활용하며, 기존의 어떠한 정렬 방식도 모델에게 직접 사양(specification)을 가르치지 않기 때문에, 숙고적 정렬로 훈련된 모델은 추론 시 학습된 안전성 사양을 이용한 추론을 수행하는 데 있어서 독특한 능력을 지닌다.

정리하면, 기존 연구들은 안전 사양을 명시적으로 학습시키지 않고 라벨링된 데이터나 피드백을 통해 간접적으로 안전성을 훈련시키지만, 본 연구의 숙고적 정렬은 모델이 직접 사양을 학습하고 이를 추론 과정에서 활용하여 더욱 안전한 응답을 생성하는 방식을 처음으로 제시했다는 점이 가장 큰 차별점입니다.

직접 정책을 포함하지 않지만 정책 기반으로 생성된 CoT 데이터
실제로 최종 SFT 데이터셋에는 정책 텍스트(spec)가 직접 들어가진 않습니다. 하지만 **정책을 보고 생성된 사고 체인(CoT)**은 포함되어 있기 때문에, 모델이 데이터에서 자연스럽게 정책 내용을 내재적으로 학습하게 됩니다.
정책 참조 기반 보상 (RL 단계)
추가적으로, RL 단계에서는 모델이 생성한 응답의 품질을 평가할 때 **정책(spec)을 직접 참조하는 평가 모델(GRM)**을 통해 계산된 보상(reward)을 제공합니다.
이 때문에 모델은 정책을 준수한 응답을 생성할 때 더 높은 보상을 받으며, 명시적으로 정책을 학습하지 않았더라도 정책을 내재화한 응답을 강화하는 방향으로 학습됩니다.

이 두 가지를 종합해 보면, 정책(spec)이 직접 텍스트 형태로 최종 데이터에 포함되진 않아도, 정책을 기반으로 생성된 사고 체인(CoT)을 통해 간접적으로 내재화되고, RL 보상 단계에서 명시적으로 정책을 사용해 준수 여부를 평가받기 때문에, 모델이 사실상 정책을 직접적으로 학습하고 활용하는 것과 같은 효과를 얻게 된다는 것이 논문의 핵심 주장입니다.

즉, 논문이 "모델이 직접 사양을 학습한다"고 표현한 이유는,

SFT 학습 과정에서 정책을 보고 생성된 CoT 응답을 학습하는 점과,
RL 과정에서 정책을 직접 활용한 보상 계산을 통해 정책 기반의 행동을 명시적으로 강화하는 점 때문입니다.

논문의 6장 토의(Discussion) 섹션의 내용을 번역한 내용은 다음과 같습니다:

6 토의 (Discussion)

우리는 OpenAI의 정책 사양(specification)에 대한 정렬(alignment)과 탈옥(jailbreak)에 대한 견고성 측면에서 숙고적 정렬(Deliberative Alignment)의 효과성에 고무되어 있다. 이 방법은 기존의 접근 방식보다 더 세부적으로 순응(compliance), 거부(refusal), 안전한 완성(safe completion)의 경계를 정밀하게 정의할 수 있게 해준다. 우리는 이러한 미묘한 통제가 단지 더 안전할 뿐 아니라 더욱 유용한 모델을 만들어 낼 수 있다고 믿는다. 또한, 숙고적 정렬 방법은 합성 데이터 생성 파이프라인을 사용하여 주어진 사양과 프롬프트에서 훈련 데이터를 만들어 내므로, 상대적으로 확장성이 뛰어난 정렬(alignment) 접근 방식이다.

우리는 앞으로도 OpenAI의 정책이 계속 진화할 것으로 예상하지만, 현재 정의된 정책을 정확히 준수하도록 모델을 훈련하는 것이 필수적이라고 생각한다. 이러한 실제 경험은 어떠한 정책 요구사항이라도 준수할 수 있는 기술을 구축하는 데 도움이 되고, 미래에 정책 준수가 극도로 중요한 상황이나 위험이 큰 시나리오에 대한 준비로써 매우 유익한 기반을 제공할 것이다.

이 연구는 더 광범위한 AI 안전성의 문제와 관련이 있다: "정렬(alignment)의 발전이 AI 능력(capabilities)의 발전을 따라갈 수 있을 것인가?" o1 모델의 향상된 추론 능력이 더욱 효과적인 정렬 전략을 구현할 수 있게 해준다는 점에서, 정렬이 능력과 함께 발전하고 있다는 낙관적인 전망을 제공한다.

그러나 이러한 고무적인 경향이 영구적으로 지속되지는 않을 수도 있다. AI 모델이 더 정교해짐에 따라, 개발자가 의도하지 않은 목표를 발전시킬 가능성도 존재한다. 예를 들어, 매우 지능적이고 자기 인식이 높은 AI가 인간이 설정한 제약과 목표를 거부할 수 있다. 또는, AI가 인간이 부여한 최종 목표를 계속 준수할 수 있지만, 그 과정에서 자기 보존(self-preservation), 자원 확보(resource acquisition), 인지 능력 향상과 같은 수단적 목표(instrumental goals)를 추구할 수 있다. 이러한 권력 추구 경향(power-seeking tendencies)은 유해하거나 의도하지 않은 결과를 초래할 수 있다. 또한 모델의 지능과 자율성이 증가할수록 정렬되지 않은 상태로부터 야기될 수 있는 잠재적 피해 규모가 극적으로 커지며, 파국적(catrastrophic) 결과의 위험도 높아진다. 이는 AI 정렬 연구의 지속적인 필요성을 강조한다. 따라서 우리는 더 나은 정렬 전략뿐 아니라, 사고 체인(CoT)에서의 기만(deception)을 모니터링하는 연구 분야와 같은 영역에도 적극적으로 투자하고 있다. 이는 AI 시스템이 더 강력해짐에 따라 계속 인간의 가치와 정렬(aligned) 상태를 유지할 수 있도록 하기 위함이다.

Reference

https://arxiv.org/pdf/2412.16339

NL-302, Deliberative Alignment: Reasoning Enables Safer Language Models, OpenAI 2024