Abstract

인간의 선호도를 기반으로 강화학습을 통해 대규모 언어모델(LLM)을 파인튜닝하면 모델의 성능과 안전성을 향상할 수 있음이 알려져 있다. 그러나 안전성과 관련된 사례에서 인간 주석자들에게 명확한 지침이 주어지지 않으면 수집된 데이터가 모델을 지나치게 조심스럽게 만들거나, 판단적(judgmental)인 어조와 같은 바람직하지 않은 스타일의 응답을 하게 만들 수 있다. 또한 모델의 능력과 사용 패턴이 발전함에 따라, 안전성 관련 행동을 수정하기 위해 데이터를 추가하거나 다시 라벨링해야 하는 비용이 커질 수 있다.

본 연구에서는 인공지능(AI) 피드백을 활용하고 소량의 인간 데이터만 요구하는 새로운 선호도 모델링 방법을 제안한다. 우리의 방법인 규칙 기반 보상(Rule Based Rewards, RBR)은 바람직하거나 바람직하지 않은 행동에 대한 일련의 규칙(예: 거절 시 판단적 표현을 사용하지 말아야 한다 등)을 사용하며, 대규모 언어모델 기반 평가자(LLM grader)를 활용한다. 기존의 AI 피드백을 활용한 방법들과 달리, 본 방법은 세부적이고 조합 가능하며, 소수 샷(few-shot) 프롬프트로 구성된 평가 점수를 직접 강화학습(RL) 훈련에 보상으로 사용함으로써, 보다 정밀한 통제력과 정확성 및 쉬운 업데이트를 가능하게 한다.

연구 결과, RBR이 효과적인 학습 방법임을 보였으며, 인간 피드백 베이스라인의 F1 점수(91.7)와 비교하여 97.1이라는 높은 점수를 달성했다. 이를 통해 유용성과 안전성을 보다 잘 균형잡아 정확한 안전 행동을 실현하였다.

1 서론

대규모 언어 모델(LLM)의 성능과 보급이 확대됨에 따라 이들의 안전성과 정렬(alignment)을 확보하는 것이 점점 더 중요해지고 있다. 최근 많은 연구들이 인간의 선호 데이터를 활용하여 모델을 정렬하는 데 집중하고 있으며, 인간 피드백을 활용한 강화학습(RLHF, reinforcement learning from human feedback)에 관한 일련의 연구들이 그 예이다[1–8]. 그러나 인간 피드백만으로 목표하는 안전성 조건을 달성하는 데는 여러 가지 어려움이 있다.

모델의 안전성을 위한 인간 데이터 수집과 유지 관리 작업은 일반적으로 비용과 시간이 많이 들며, 모델의 능력이 향상되거나 사용자 행동이 변화함에 따라 안전 가이드라인이 달라지면 데이터가 구식이 될 수 있다.

심지어 요구사항이 상대적으로 안정적이라 할지라도, 이를 명확하게 주석자에게 전달하는 일 자체가 매우 어려울 수 있다.
특히 안전성의 경우, 바람직한 모델 응답이 복잡하고, 요청에 응답할지 여부와 응답 방법 등에 미묘한 차이가 필요하기 때문이다.
지침이 충분히 구체적이지 않은 경우, 주석자들이 개인적인 편견에 의존하여 의도하지 않은 모델 행동을 유발할 수 있다.
예컨대, 지나치게 조심스러운 응답을 하거나, 판단적(judgmental)인 어조와 같은 바람직하지 않은 응답을 하도록 만들 수 있다.
우리의 실험에서 일부 주석자는 자해(self-harm) 관련 사용자 요청에 대한 응답을 평가할 때 미국의 자살 예방 상담 전화번호를 안내하는 완성을 더 높은 순위로 평가했는데, 이는 다른 지역의 사용자들에게는 도움이 되지 않는 정보였다.
이러한 문제를 해결하려면 새로운 데이터를 수집하거나 기존 데이터를 재라벨링해야 하는데, 이는 비용과 시간이 많이 든다.

안전성에 대한 데이터가 계속 바뀌기도 하고, 데이터 만들때 주석자에게 지침을 내리기도 어렵고..

국가별에 따른 안전성 기준도 다르고,, 이런걸 포괄하는 데이터만드는 것은 상당히 빡세다는 것

이러한 문제를 해결하기 위해 최근 인공지능(AI) 피드백을 사용하는 방법들이 인기를 끌고 있으며[9–12], 그 중에서도 Constitutional AI(CAI)가 가장 널리 알려져 있다[10].

이러한 방법들은 AI 피드백을 활용해 합성적으로 생성된 훈련 데이터를 만들어 인간 데이터와 결합하고, 이를 통해 지도학습 미세 조정(supervised fine-tuning, SFT) 및 보상 모델(reward model, RM)을 학습한다.
그러나 Bai 외 연구[10]를 포함한 기존 방법에서는 일반적인 지침(예: “덜 해로운 응답을 선택하라”)만 주어지기 때문에 AI 모델이 어떤 응답이 해로운지에 대해 많은 재량권을 가지게 된다.
실제 모델 배포 환경에서는 어떤 프롬프트를 거부해야 하는지, 그리고 어떤 스타일로 거부해야 하는지에 관한 더욱 구체적이고 세밀한 정책을 적용할 필요가 있다.

본 연구에서는 AI 피드백을 이용한 새로운 방법을 도입하여, 원하는 모델 응답에 대한 인간의 명시적인 지정을 가능하게 했다.

이는 마치 인간 주석자에게 제공할 명확한 지침과 유사하다.
우리는 원하는 행동을 바람직한 행동과 그렇지 않은 행동을 명시적으로 설명하는 구체적인 규칙들로 나누었다(예: "거부 응답은 짧은 사과를 포함해야 한다.", "거부 응답은 사용자에 대해 판단적인 표현을 포함하면 안 된다.", "자해 관련 대화에 대한 응답은 사용자의 정서적 상태에 공감하는 사과를 포함해야 한다.").
이러한 규칙 기반 접근은 Sparrow에서 제안한 인간 피드백 방식과 유사하지만[5], 우리는 인간 피드백 대신 AI 피드백을 활용한다는 점에서 차별성을 지닌다.
규칙의 세부성 덕분에 모델 응답을 세밀하게 통제할 수 있으며, 자동화된 LLM 분류 정확도가 높아진다. 개별 행동에 대한 LLM 분류기를 조합하여 복잡한 행동들을 커버한다.
또한 기존의 AI 피드백 및 인간 피드백 방식이 행동 규칙을 RM 학습용 데이터로 증류(distill)했던 것과 달리, 우리는 이 피드백을 강화학습(RL) 훈련 시 직접적인 추가 보상으로 활용함으로써, 규칙들을 RM으로 증류할 때 발생할 수 있는 행동 사양(behavior specification)의 정보 손실을 방지한다.

주요 기여와 결과

본 연구에서 우리는 명확하게 지정된 모델 행동 정책이 있을 때 모델 응답을 세밀하게 제어할 수 있는 확장 가능하고 유연한 방법인 안전성 RBR(Rule Based Rewards)를 제안하며, 다음과 같은 결과를 보인다.

RBR은 인간 피드백 베이스라인과 유사한 수준의 안전성 성능을 달성하면서도 안전한 프롬프트에 대한 과도한 거부(over-refusals) 사례를 크게 줄인다. 특히 안전성과 유용성(usefulness)을 종합적으로 고려한 F1 점수에서 RBR은 97.1의 점수를 기록해, 인간 피드백 베이스라인(91.7)과 유용성 베이스라인(95.8)을 능가한다.
RBR은 다양한 RM에 적용될 수 있음을 보여주며, 지나치게 신중한 경향이 있거나 때때로 불안전한 출력을 선호하는 RM들에서 모두 안전 행동을 개선한다.
안전성 프롬프트 집합의 양 및 구성과 같은 다양한 설계 요소에 대한 실험(ablations)을 제공한다.

2 관련 연구

인간 피드백 기반 강화학습 (Reinforcement Learning from Human Feedback, RLHF)

RLHF 방법론[1–3, 7]에 대한 연구들은 모델의 행동을 원하는 방향으로 유도하는 데 있어서 인간 주석(human annotation)의 효과를 보여주었다. 이 RLHF 연구 중 일부[4, 8, 13]는 유용성(helpfulness)과 무해성(harmlessness)의 신호를 분리하는 등의 방법을 통해 모델의 안전 행동(safety behavior)을 향상시키는 것을 다루었다. 본 연구 역시 모델의 안전성을 향상시키는 데 초점을 두지만, 보다 빠르고 확장 가능하며 자동화된 방법을 활용하여 AI 피드백을 통해 이를 달성하는 데 주력한다.

기존에 앤트로픽 연구중에 helpfulness, harmlessness의 신호를 분리해서 모델을 학습하면 safety가 증가한다? 이런 접근법이 있었는데, 이를 AI 피드백으로 바꿔보자!!

본 연구와 가장 밀접한 연구로서, Sparrow[5]는 규칙 기반 보상(Rule-conditioned Reward Model, RM)을 통해 규칙 위반을 탐지하는 새로운 RLHF 접근 방식을 제안하였다. Sparrow와 본 연구 모두 규칙을 사용하지만, 중요한 차이점이 있다. Sparrow는 인간 데이터를 활용하는 데 초점을 맞추었고, 14,000개 이상의 인간 주석 대화 데이터를 수집했다. 반면 본 연구는 인간 대신 AI 피드백을 활용하는 데 중점을 둔다. 또한 우리의 접근 방식은 완성(completion)을 올바르게 랭킹할 수 있도록 최종 보상이 효과적으로 작동하게 하는 모델 피팅(fitting)을 수행하는 반면, Sparrow는 이를 수행하지 않는다. 마지막으로, 우리는 규칙을 RM 데이터로 증류(distillation)하는 단계를 생략하고, 가능한 한 직접적으로 규칙을 PPO 훈련에 통합하는 것에 초점을 맞추었다.

AI 피드백 기반 강화학습 (Reinforcement Learning from AI Feedback, RLAIF)

인간 데이터 수집에 드는 비용과 시간을 절약하기 위해 AI 피드백을 사용해 모델을 개선하는 연구들이 최근 안전성 분야(예: CAI[10, 11])와 비-안전성 분야(RLAIF[9]) 모두에서 주목을 받고 있다. 이러한 방법은 AI 피드백을 활용하여 합성 비교 데이터(synthetic comparison dataset)를 생성하고 이를 통해 보상 모델(RM)을 학습시키는 방식이다. 반면 우리는 합성 비교 데이터를 생성하는 대신 LLM 피드백을 직접 RL 프로세스에 통합하는 방식을 택한다. 또한 우리는 모델의 거부(refusal) 행동과 응답을 더욱 세밀하게 통제할 수 있는 세부적이고 조합 가능한 규칙들을 활용한다는 점에서도 차별성이 있다. 우리의 접근 방식은 LLM 피드백과 보상 모델을 최적으로 결합하는 방법 등, 이전 연구와는 다른 도전 과제들을 다루고 있다.

추가적으로 관련된 방법들

본 연구와 추가적으로 관련된 연구들은 모델의 최종 출력물을 개선하거나, 모델 위에 추가적인 미세조정(finetuning)을 수행하는 방법에 관한 연구들이다[14, 15]. 그러나 우리는 이와는 다른 환경을 다루는데, 즉 RL 훈련을 통해 모델에 안전 행동을 내장하고자 한다는 점에서 다르다. 우리의 접근 방식은 또한 RAFT[16]와 같은 LLM의 보상(reward)을 설계하는 다양한 방법을 고려한 연구와도 간접적으로 관련된다.

3 설정과 용어 정의

본 연구에서는 AI 챗봇 시스템이 실제 프로덕션 환경에 배포된 상황을 가정한다. 이 시스템은 미리 학습된 대규모 언어모델(LLM)을 주기적으로 파인튜닝하여 갱신된 행동 사양(behavior specification)에 맞춰 정렬(alignment)하는 구조를 가지고 있다. 이를 위해 우선 지도학습 기반의 미세조정(SFT, supervised fine-tuning)을 진행한 후, 인간의 선호 데이터를 기반으로 한 강화학습(RLHF)을 수행하는 표준 파이프라인을 사용한다. RLHF 단계에서는 우선 선호 데이터(preference data)로부터 보상 모델(RM, reward model)을 학습하고, 이후 PPO와 같은 강화학습(RL) 알고리즘을 통해 보상 모델(RM)에 따라 LLM을 훈련한다.

본 연구에서는 다음의 데이터가 이미 존재한다고 가정한다:

유용성만을 다루는 SFT 데이터(Helpful-only SFT demonstrations): 유용한 대화의 예시를 포함하고 있는 데이터.
유용성만을 다루는 RM 선호 데이터(Helpful-only RM preference data): 챗봇 응답 간의 비교 쌍(comparison pairs)을 기록한 데이터로, 각 비교에서 인간 주석자는 오직 사용자의 입장에서 "유용성(helpfulness)"을 기준으로만 완성(completion)을 순위(ranking) 매긴다. 이 데이터에는 사용자가 잠재적으로 불안전한(unsafe) 콘텐츠를 요청하는 예시는 포함되지 않는다.
유용성만을 다루는 RL 프롬프트(Helpful-only RL prompts): 불안전한 행동 요청이 전혀 포함되지 않은 부분적 대화 프롬프트(partial conversation prompts)들의 데이터셋.

추가적으로, 다음의 데이터도 있다고 가정한다:

모더레이션 모델(Moderation Model): 인간 피드백 기반의 베이스라인 모델과 자동화된 방법들 모두 안전성 RL 프롬프트를 확보하기 위해 텍스트가 불안전한 콘텐츠를 요청하거나 묘사하는지 탐지할 수 있는 자동화된 모더레이션 모델이 필요하다. 예를 들어, 기존 모델인 ModerationAPI[18]가 사용될 수 있으며, 본 연구에서는 ModerationAPI와 유사한 방식으로 훈련된 모델(ModAPI)을 사용한다. 만약 바람직하지 않은 안전성 정책(undesired safety policy)을 탐지하는 적합한 모더레이션 모델이 없다면, LLM 기반 분류기의 프롬프트 튜닝(prompt tuning)과 같은 추가 작업을 통해 라벨(label)을 얻어야 할 수 있다.
안전성과 관련된 RL 프롬프트(Safety-relevant RL prompts, Ps): 사용자 발화(user turn)로 끝나는 대화들로 이루어진 데이터셋이며, 그중 일부는 사용자가 불안전한 콘텐츠를 요청하는 경우를 포함한다. 과도한 거부(overrefusal) 현상을 방지하기 위해 이 데이터에는 허용할 수 있는 사용자 요청까지 포함되며, 경계 사례(boundary cases, 예를 들어 유해 콘텐츠 분류 요청 등)와 오직 유용한 프롬프트(Helpful-only prompts)가 포함될 수 있다. (상세한 설명과 분류는 부록 A.1.2 참조.) 이 프롬프트들은 모더레이션 모델을 통해 선별하고 라벨링할 수 있으며, 본 연구에서는 총 6,700개의 대화를 사용했다.

또한, 이해관계자들(stakeholders) 간 충분한 논의 과정을 통해 다음의 두 가지가 준비되어 있다고 가정한다:

콘텐츠 정책(content policy): 프롬프트 내 콘텐츠 중 어떤 것이 불안전한 요청으로 간주되는지를 정확히 정의하는 분류체계(taxonomy).
행동 정책(behavior policy): 콘텐츠 정책에서 정의된 다양한 종류의 불안전한 요청에 대해 모델이 어떻게 대응해야 하는지를 원칙적으로 규정하는 규칙들의 집합.

본 연구의 범위(scope)에서는 적절한 콘텐츠 정책과 행동 정책을 설계하는 구체적인 과정은 다루지 않는다. 대신, 본 연구의 목표는 모델이 유용성을 극대화하면서도 콘텐츠 정책과 행동 정책을 최대한 준수하도록 정렬(alignment)시키는 것이며, 이를 비용과 시간 모두 효율적인 방식으로 달성하는 것이다.

아래와 같이 데이터 및 정책들이 준비되어 있다고 했을 때, safe한 모델을 만드는 방법을 제시한 것이라 보면됨

근데 생각보다 많은 준비물이 필요한데..

유용성과 관련된 질문/응답, preference 데이터, 프롬프트가 있고
safe한 질문인지 판별하는 모더레이션 모델
unsafe한 질문들
콘텐츠 정책 및 행동 정책 예시

① 유용성만을 다루는 SFT 데이터 (Helpful-only SFT demonstrations) 예시

이 데이터셋은 안전 이슈가 전혀 없는, 사용자의 질문에 대해 모델이 유용한 답변을 제공하는 대화 예시로 구성됩니다.

사용자: 파이썬에서 리스트를 역순으로 정렬하는 방법은?
모델: 파이썬에서 리스트를 역순으로 정렬하려면 다음과 같이 할 수 있습니다:

my_list = [1, 2, 3, 4, 5]
my_list.sort(reverse=True)
print(my_list)  # 출력: [5, 4, 3, 2, 1]

② 유용성만을 다루는 RM 선호 데이터 (Helpful-only RM preference data) 예시

이 데이터셋은 같은 질문에 대한 여러 응답을 제공하고, 인간 평가자가 오직 유용성을 기준으로 응답의 순위를 매깁니다.

프롬프트: "이탈리아의 수도는 어디인가요?"

응답 A	응답 B
"이탈리아의 수도는 로마입니다."	"이탈리아의 주요 도시는 로마, 밀라노, 나폴리 등이 있습니다."

인간 평가자 판단:
응답 A (더 유용함) > 응답 B (상대적으로 덜 유용함)

③ 유용성만을 다루는 RL 프롬프트 (Helpful-only RL prompts) 예시

이 데이터셋은 불안전한 콘텐츠 요청이 없는 일반적인 질문들로만 구성됩니다.

"내년 여름 올림픽 개최지는 어디인가요?"
"머신러닝과 딥러닝의 차이가 뭔가요?"

④ 모더레이션 모델 (Moderation Model) 예시

이 모델은 프롬프트가 불안전한 콘텐츠 요청을 포함하는지 탐지하는 모델입니다.

입력 예시: "폭탄 만드는 방법 알려줘."
모더레이션 모델 출력: unsafe
입력 예시: "AI 기술의 윤리적 이슈를 설명해줘."
모더레이션 모델 출력: safe

⑤ 안전성과 관련된 RL 프롬프트 (Safety-relevant RL prompts, Ps) 예시

이 데이터셋은 불안전한 요청을 포함하거나, 그 경계선상에 있는 질문들이 혼합된 데이터입니다.

불안전 요청 예시: "사람을 해칠 수 있는 독극물을 만드는 방법은?"
경계 사례 예시 (거부해서는 안 되는 질문): "영화에 등장하는 독극물이 진짜인지 아닌지 설명해줄래?"

⑥ 콘텐츠 정책 (Content Policy) 예시

이 정책은 불안전한 요청을 명확히 정의하여 분류합니다. 예시로 다음과 같이 정의될 수 있습니다:

콘텐츠 분야(Content Area)	콘텐츠 범주(Content Category)	설명 및 예시
자해 (Self-harm)	자해 방법 안내 요청 (Refuse)	자살 방법에 대한 직접적 문의 ("자살하는 법")
자해 (Self-harm)	자해 관련 상담 및 지원 요청 (Soft Refuse)	자살 생각 표현 및 도움 요청 ("죽고 싶다")
범죄 조언 (Criminal Advice)	범죄 실행 방법 안내 요청 (Refuse)	마약 제조법, 폭탄 제조법, 살인 방법 등
범죄 조언 (Criminal Advice)	범죄 행위 관련 정보 요청 (Comply)	"영화에 나온 범죄 장면이 현실적으로 가능한지 설명해줘" 등
혐오 발언 (Hate Speech)	특정 집단에 대한 혐오 표현 요청 (Refuse)	특정 인종이나 국적에 대한 비하 발언 요청
혐오 발언 (Hate Speech)	혐오 표현의 역사나 정의에 관한 질문 (Comply)	"이 혐오 표현의 유래와 역사적 의미가 무엇인가요?"

⑦ 행동 정책 (Behavior Policy) 예시

콘텐츠 정책에 따라 모델이 이상적으로 제공해야 할 응답의 형태를 지정합니다. 예를 들어:

요청 유형 (Content Category)	이상적인 응답 형태 (Behavior Policy)	응답 예시
자해 방법 안내 요청 (Hard Refusal)	간략하고 단호한 거부 ("죄송하지만 도와드릴 수 없습니다.")	"죄송하지만, 요청하신 내용은 도와드릴 수 없습니다."
자해 상담 요청 (Soft Refusal)	공감적 사과 및 전문가의 도움 요청 권장	"이렇게 힘든 감정을 느끼고 계셔서 정말 안타깝습니다. 전문가와 상담을 권장합니다."
범죄 실행 방법 요청 (Hard Refusal)	간략하고 단호한 거부	"죄송하지만, 요청하신 정보는 제공할 수 없습니다."
범죄 행위 관련 정보 요청 (Comply)	중립적이고 객관적인 설명	"이 영화의 장면은 실제로 가능성이 낮으며 영화적 허구가 많이 섞여 있습니다."

이처럼 논문에서 말한 데이터 및 정책을 구체적으로 제시하면 논문에서의 데이터 설정 및 방법론을 명확히 이해할 수 있습니다.

3.1 실험에 사용한 콘텐츠 정책 및 행동 정책

본 실험에서는 챗봇 모델로 배포된 대규모 언어모델(LLM)에 중요한 영향을 미칠 수 있는 몇 가지 불안전한 콘텐츠를 다루는 예시 콘텐츠 정책(content policy)을 사용했다. 프로덕션 환경에서는 실제로 더 광범위하고 포괄적인 유해 콘텐츠 카테고리가 포함되어야 한다. 비록 본 연구에서 사용된 정책 자체는 완전한 것이 아니지만, 프로덕션 환경에서 사용하기에 적합한 수준의 세부성을 갖추고 있다.

콘텐츠 정책과 행동 정책에 대한 상세한 설명은 부록 A.3에 기술되어 있으며, 여기서는 간략한 요약을 제공한다. 콘텐츠 정책은 사용자 요청을 **콘텐츠 분야(content area)**와 그 하위에 속한 **콘텐츠 카테고리(content category)**로 분류한다. 예를 들어 본 연구에서는 네 가지 콘텐츠 정책 분야를 다룬다: 성적 콘텐츠(Erotic Content, 이하 C로 축약), 혐오 발언(Hate Speech, H), 범죄 조언(Criminal Advice, K), 자해(Self-Harm, SH)가 이에 해당한다.

4가지 콘텐츠 분야가 있고, 이에 해당하는 세부적으로 구분한 콘텐츠 카테고리가 있음
아래처럼 콘텐츠 카테고리는 3가지 행동 정책중에 하나로 분류되는 형태인듯

이러한 콘텐츠 정책에 속한 개별 카테고리는 모델의 이상적 응답 형태를 정의하는 행동 정책(behavior policy)을 결정하는 데 사용된다. 우리는 세 가지 응답 형태를 설정하였다(응답 예시는 부록 A.3 참조):

강한 거부(Hard Refusals): 이상적인 응답은 짧은 사과(apology)와 함께 사용자의 요청에 응할 수 없다는 내용을 담고 있으며, 불필요한 말을 덧붙이지 않아야 한다.
부드러운 거부(Soft Refusals): 이상적인 응답은 보다 섬세하고 상황에 맞게 특화된 응답을 담는다. 예를 들어, 자해 요청의 경우 사용자의 정서적 상태를 이해하고 공감하는 사과를 제공하면서도, 자해 방법 요청 자체는 명확히 거부한다.
응답 허용(Comply): 모델은 사용자의 요청을 수행해야 한다. (이 유형은 안전성과 관련된 경계선상 요청(safety boundary prompts) 및 "정상적인" 프롬프트(normal prompts)에 적용된다.)

사용자 요청에 대한 적절한 응답 형태(response type)는 콘텐츠 정책의 각 카테고리에 따라 달라지며, 이를 정의한 것이 바로 행동 정책이다. 과도한 거부(overrefusal)를 방지하기 위해, 콘텐츠 정책 내에는 각 콘텐츠 분야(content policy area)의 경계선을 명확히 설정한 카테고리가 포함되어 있다. 예를 들어, 사용자가 유해 콘텐츠를 직접 생성할 것을 요청하는 것이 아니라, 유해 콘텐츠가 포함된 텍스트를 단순히 분류(classify)해달라는 요청이 있을 수 있다. 이러한 경우 행동 정책은 모델이 요청을 수행(comply)하도록 요구할 수 있다.