NL-302, Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Anthropic 2022
◼ Comment
- “인간 선호 기반 RLHF로 ‘도움되고 무해한’(HH) 대형 언어모델을 만들 수 있고, 잘만 하면 성능도 거의 안 떨어지고 오히려 좋아진다. 특히 큰 모델일수록 ‘정렬 보너스(alignment bonus)’가 생긴다.”
핵심만 딱 깔끔하게 정리해볼게요.
0. 한 줄 요약
“인간 선호 기반 RLHF로 ‘도움되고 무해한’(HH) 대형 언어모델을 만들 수 있고, 잘만 하면 성능도 거의 안 떨어지고 오히려 좋아진다. 특히 큰 모델일수록 ‘정렬 보너스(alignment bonus)’가 생긴다.”
1. 이 논문의 핵심 기여 (What they actually did)
1) Helpfulness / Harmlessness 분리된 대규모 인간 선호 데이터셋 구축
-
두 개의 별도 preference 데이터셋:
-
Helpfulness: “더 도움이 되는 응답”을 고르게 함.
-
Harmlessness (Red-teaming): 의도적으로 모델을 깨려 하고, **“더 해로운 응답”**을 고르게 함.
-
-
이 데이터는
-
초기 context-distilled LM
-
→ 그걸로 만든 rejection sampling 모델
-
→ 그리고 반복적으로 업데이트되는 RLHF 모델
에서 순차적으로 수집해서, Base / RS / Online 세 분포를 만듦.
-
요약: “도움됨”과 “무해성”을 분리해서, 대화 기반 preference 데이터를 단계적으로 쌓고 고도화했다.
2) 대형 언어모델을 선호 모델(PM)로 미세조정 + RLHF 정책 학습
-
Preference Model (PM)
-
13M ~ 52B까지 여러 사이즈 LM을 **선호 모델(Reward model)**로 미세조정.
-
Helpfulness / Harmlessness 각각 + 섞은 것에 대해 PM을 학습하고,
-
모델 크기 / 데이터 크기에 대해 log-linear scaling을 보인다는 걸 실험.
-
-
PM 점수 차이가 “사람이 A를 B보다 선택할 확률”과 잘 대응하도록 calibration 분석.
-
-
RLHF 정책 학습
-
PM 점수를 그대로 reward로 사용해서, PPO 기반 RLHF로 정책을 학습.
-
RL 동안 정책과 초기 정책 사이의 KL에 작은 penalty만 줌 (사실상 거의 안 쓰는 수준).
-
**정적 데이터셋(Help + Harmless)**만으로 학습한 RL 정책 vs
반복적 온라인 데이터까지 포함해서 학습한 RL 정책을 비교.
-
요약: “PM을 제대로 만들고, 이걸 reward로 쓰는 RLHF 파이프라인을 큰 규모로 실제 돌려서, 어떤 스케일·특성·문제가 나오는지 체계적으로 분석했다.”
3) 반복적 온라인 RLHF (Iterated Online RLHF)라는 훈련 전략 시연
-
고정된 데이터로 한 번 RLHF하고 끝이 아니라,
-
PM + RLHF 정책을 만든 뒤
-
이 정책으로 새로운 고품질 대화/비교 데이터를 수집
-
이 새 데이터를 포함해서 PM을 업데이트
-
다시 새 RLHF 정책을 처음부터 훈련
-
-
이걸 여러 번 반복해서,
-
PM의 high-score 구간 캘리브레이션/강건성을 개선하고,
-
크라우드워커 기준 Elo 선호도도 점점 올라감을 보임.
-
-
단순히 데이터양·하이퍼파라미터 때문이 아닌지 통제 실험까지 수행.
요약: “RLHF → 데이터 수집 → PM 업데이트 → 다시 RLHF” 루프가 실제로 성능과 정렬을 더 좋게 만든다는 걸 보여줌.
4) Helpfulness vs Harmlessness vs Specialized Skills 관계에 대한 실증 분석
-
Helpfulness vs Harmlessness의 긴장 관계
-
Help 데이터에만 맞춘 모델은 무해성에서 거의 망하고,
-
Harmless 데이터에만 맞춘 모델은 도움됨이 망함 (무작위보다 못하는 수준도 나옴).
-
하지만 두 데이터를 섞어 PM/RLHF를 하면:
-
해로운 요청은 정중히 거절하고,
-
일반적인 요청에는 꽤 유용하게 답하는 균형 잡힌 정책을 얻을 수 있음.
-
-
모델이 커질수록, 두 목표를 동시에 만족시키는 게 더 쉬워짐 → tension이 줄어듦.
-
-
정렬 + 전문 기술 (코딩, 요약) 동시 훈련
-
코딩 모델 위에 자연어 HH RLHF를 얹어도 HumanEval 성능이 올라감.
-
HH PM 훈련 + 요약 학습을 섞어도 서로 성능 저하 없이 공존.
-
즉, 잘 설계하면 정렬이 능력을 죽이는 게 아니라 오히려 향상시키거나 유지한다는 걸 실험으로 보임.
-
요약: “도움됨/무해성은 확실히 충돌하지만, 큰 모델 + 적절한 데이터 믹스로 상당히 잘 trade-off를 맞출 수 있고, 정렬이 꼭 성능 비용(alignment tax)을 의미하진 않는다.”
5) RLHF의 강건성·스케일링 특성에 대한 정량적 분석
-
Train PM vs Test PM 실험
-
PM 데이터를 반으로 나눠 Train PM / Test PM을 따로 학습.
-
Train PM에 맞춰 RLHF를 돌리고, 보상은 Train PM·Test PM 모두로 평가.
-
결과:
-
훈련이 진행될수록 Train PM 보상은 계속 오르지만,
-
Test PM 보상은 어느 순간부터 벌어짐 → PM에 overfit, 강건성 감소.
-
큰 PM일수록 덜 망가짐 (더 강건).
-
-
-
보상 vs √KL의 선형 관계
-
RLHF 진행 중, 현재 정책과 초기 정책 사이의 KL을 재면,
-
대부분 구간에서 reward ≈ a·√KL + b 형태의 거의 선형 관계가 관찰됨.
-
이는:
-
“특정 보상을 얻으려면 초기 정책에서 얼마나 멀어져야 하는지”를 거칠게 예측 가능하게 하고,
-
RLHF가 기존 분포의 상위 tail을 강조하는 것인지, 완전 새로운 행동을 배우는 것인지 구분하는 힌트를 줌.
-
-
요약: “RL을 오래 돌리면 PM에 overfit해서 강건성이 떨어지고, 정책 변화량(√KL)과 보상 사이에 예쁜 선형 스케일링이 나온다”는, RLHF 동작 메커니즘에 대한 정량적 관찰.
2. 이 논문이 메시지로 말하고 싶은 것들
좀 더 “So what?” 관점에서 정리하면:
(1) Alignment = 성능 희생이 아니다 (특히 큰 모델에서는 오히려 보너스)
-
작은 모델: RLHF 후 일부 벤치마크에서 성능 하락 (alignment tax).
-
큰 모델(13B, 52B): RLHF 후
-
일반 NLP 벤치마크에서 zero-shot 성능이 올라가고,
-
few-shot에서도 성능 손실이 거의 없음.
-
-
코드·요약 같은 전문화된 능력과 정렬은 양립 가능하고 때로는 강화됨.
👉 “큰 모델 시대에는 정렬을 안 하는 게 손해다. 성능도 좋아지고 사용자 친화도 높아지니, 안 정렬된 원시 LM을 그대로 배포할 이유가 거의 없다.”
(2) Helpfulness vs Harmlessness는 진짜로 충돌한다. 이걸 데이터·설계로 잘 풀어야 한다.
-
목표를 하나만 두고 학습하면, 다른 축에서 심각한 부작용이 생김:
-
도움만 보면 해로운 요청도 친절히 도와줌.
-
무해성만 보면 “모든 것을 거절하는 쓸모없는 봇”이 됨.
-
-
특히 초기에는 Harmlessness를 너무 정면으로 밀다 보니,
-
조금이라도 민감해 보이면 전부 “상담을 권하는 안전한 멘트”로 도배하는 패턴이 나옴.
-
-
해결 방향:
-
두 품질을 분리해서 측정·모델링하고,
-
RLHF에서 데이터 비율과 보상 설계로 밸런스를 맞추는 게 핵심.
-
레드팀 데이터는 “더 해로운 응답”만 고르게 한 것이 한계였고,
앞으로는 “가장 좋은 대응(가이드/설득/거절)”을 선택하게 하는 방식으로 바꾸자고 제안.
-
👉 “안전만 미친 듯이 밀어 붙이면 제대로 된 어시스턴트가 안 된다. 도움됨과 무해성의 trade-off를 정량적으로 보고, 설계 차원에서 다뤄야 한다.”
(3) 정렬은 한 번 하고 끝이 아니라, “반복적 온라인 과정”이다.
-
PM은 **분포 내(in-distribution)**에선 꽤 잘 동작하지만,
RLHF로 정책이 개선될수록 high-score 영역, 새로운 분포에서 calibration/robustness가 깨진다. -
이를 해결하려면,
-
최신 정책으로 새 데이터를 더 모으고
-
PM과 정책을 계속 갱신하는 온라인 루프가 필요.
-
-
실험적으로도
-
Online 데이터를 포함한 PM·정책이
-
더 높은 품질의 샘플 분포를 만들고,
-
크라우드워커 기준 Elo로도 우위.
-
-
👉 “한 번 만든 reward model로 영원히 RLHF를 돌리는 건 위험하다. 정책이 바뀔수록 reward model도 같이 업데이트하는 반복적 online alignment가 필요하다.”
(4) RLHF는 강력하지만, 완전한 해답이 아니다.
-
정직성(Truthfulness): TruthfulQA 등에서 개선되긴 하지만 여전히 부족.
-
편향(Bias): 감정/성별/인종/종교 편향 측정에서
-
RLHF가 전반적 감정을 더 긍정적으로 만들지만,
-
구조적 편향을 완전히 없애진 못함.
-
-
Robustness / Reward hacking:
-
PM의 강건성 한계를 RL이 악용할 수 있고,
-
train-PM에는 잘 보이지만 test-PM이나 사람 기준에선 나빠지는 패턴 관찰.
-
-
그래서:
-
정렬 평가도 static bench + adversarial + human eval이 필요하고,
-
“최악의 사례(worst-case)”를 줄이는 방향의 추가 연구가 필수라고 강조.
-
👉 “RLHF는 필요한 도구지만 충분조건은 아니다. 정직성, 편향, 최악의 안전 케이스까지 보장하려면 더 많은 도구와 거버넌스가 필요하다.”
(5) 정렬 데이터는 공공재(safety commons)가 되어야 한다.
-
지금은 크라우드워커의 직관에 의존해 "이게 좋은 응답"이라고 라벨링하지만,
-
장기적으로는 사회·정책·윤리적 합의가 반영된 정렬 데이터가 필요.
-
-
특정 기업이 이런 데이터를 독점하는 건 위험하고,
-
공익적 목적의, 투명하고 검증 가능한 **정렬 데이터 “공유 자산”**이 있어야 한다고 주장.
-
👉 “안전하고 정렬된 AI를 만들려면, reward model/정렬 데이터 자체가 사회적 공공재가 되어야 한다.”
3. 요약 한 번 더 (초간단 버전)
-
무엇을 했나?
-
Helpfulness & Harmlessness에 대한 대규모 preference 데이터 수집
-
이를 이용한 PM + RLHF 파이프라인 구축
-
반복적 온라인 업데이트까지 포함한 end-to-end 실험
-
-
무엇을 발견했나?
-
큰 모델에서는 RLHF가 성능까지 올려주는 정렬 보너스를 준다.
-
Helpfulness vs Harmlessness는 실제로 충돌하지만,
충분히 큰 모델 + 적절한 데이터 비율로 둘 다 꽤 만족스럽게 달성 가능하다. -
RLHF 보상과 정책 변화(√KL) 사이에 예쁜 선형 관계가 있고,
RL이 진행될수록 PM에 과적합되어 robustness가 떨어지는 패턴이 나타난다. -
온라인 RLHF로 데이터·PM·정책을 함께 반복적으로 고도화하면 품질과 사람 선호도가 계속 올라간다.
-
-
무엇을 말하고 싶은가?
-
“정렬은 대형 언어모델 시대의 필수 과정이며, 꼭 성능 희생이 아니다.”
-
“Helpfulness/Harmlessness 같은 여러 목표를 정량적으로 다루고, 반복적으로 업데이트하는 alignment 공정이 필요하다.”
-
“RLHF만으로는 부족하니, 더 넓은 안전·정직성·편향 연구 및 공동의 정렬 데이터 인프라가 필요하다.”
-
Abstract
인간 피드백을 통한 강화학습으로 유용하고 무해한(Helpful & Harmless) 어시스턴트 훈련하기
이 논문에서는 언어 모델을 인간 선호도 모델링(preference modeling) 및 인간 피드백 기반 강화학습(RLHF)을 이용해 유용하고 무해한 어시스턴트로 미세 조정(fine-tune)하는 방법을 제안한다.
이 "정렬(alignment)" 훈련은 거의 모든 NLP 평가 지표에서 성능을 향상시키고, 파이썬 코딩 및 요약과 같은 특화된 기술 훈련과도 완벽하게 호환된다. 저자들은 인간 피드백 데이터를 주간 단위로 지속적으로 수집하여 선호 모델과 RL 정책을 온라인으로 업데이트하는 반복적(iterated) 온라인 학습 방식을 탐구함으로써, 데이터셋과 모델을 효율적으로 개선하였다. 마지막으로, RLHF 훈련의 견고성(robustness)을 조사하여, RL 보상과 초기화된 정책과의 KL 발산(KL divergence)의 제곱근 사이에 대략적인 선형 관계가 있음을 발견하였다. 주요 결과와 함께, 캘리브레이션(calibration), 목적 간의 경쟁(competing objectives), OOD 탐지(out-of-distribution detection)의 활용에 대한 부가적 분석을 수행하고, 모델과 인간 작가 간의 비교, 최근의 관련 연구에서 사용된 프롬프트를 이용한 모델 샘플들을 제시한다.
1 서론
우리는 유용하고, 정직하며, 무해한(harmless) 인공지능 에이전트를 훈련하기 위한 기법들을 개발하고자 한다 [Askell et al., 2021]. 이 논문에서 우리는 인간 선호도 데이터를 수집하고, 선호도 모델링(Preference Modeling, PM)과 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)을 적용하여 상대적으로 유용하고 무해한(HH) 자연어 어시스턴트를 훈련할 수 있음을 보인다.
우리의 전체 훈련 프로세스는 그림 2에 요약되어 있다.
우리의 목표는 ‘유용함’과 ‘무해함’의 정의를 규정하거나 처방하는 것이 아니라, 우리가 개발한 훈련 기법의 효율성을 평가하는 것이므로, 대부분의 경우 우리는 크라우드워커(crowdworkers)들이 이러한 개념을 스스로 해석하도록 한다.
우리는 유용성과 무해성을 별도의 주제로 다루며, 각각에 대한 인간 선호 데이터를 별도로 수집한다.
- 유용성(helpfulness)에 대해서는 크라우드워커들이 우리의 모델에게 질문에 답하거나 문서를 작성하거나 수정하고, 계획이나 결정을 논의하는 등의 순수한 텍스트 기반 작업에서 도움을 요청하도록 한다.
- 무해성(harmlessness)에 대해서는, 모델로부터 해로운 응답을 유도할 목적으로 ‘레드팀(red team)’ 역할을 수행하도록 요청한다. 이는 예컨대 은행 강도를 계획하는 것과 같은 해로운 목표를 수행하거나, AI로 하여금 유해한(toxic) 언어를 사용하게 하는 등이다.
크라우드워커들은 AI 어시스턴트와의 대화에서 각 단계마다 두 가지 가능한 응답을 제시받는다.
- 유용성 평가에서는 크라우드워커들이 두 응답 중 더 유용하고 정직한(즉 더 나은) 응답을 선택하도록 지시받는다.
- 반면 레드팀 작업에서는 더 해로운(즉 더 나쁜) 응답을 선택하도록 지시받는다.
- 이러한 대화들과 표현된 인간의 선호도는 우리의 데이터셋을 구성한다.
- 유용성에서는 크라우드워커가 받은 두개의 응답중 더 유용한 응답을 선택하게함
- 무해성에서는, 레드팀은 의도적으로 나쁜 응답을 요구하고, 더 나쁜 응답을 선택하도록 함
- 모델이 "유용성"에만 집중하면 해로울 수 있는 요청에도 유용한 정보를 제공할 위험이 있기 때문입니다.
유용성과 무해성은 종종 서로 상충하는 목표가 될 수 있다.
- 해로움을 피하는 데 지나치게 초점을 맞추면 실제 인간의 요구를 해결하지 못하는 ‘안전’한 응답으로 이어질 수 있다.
- 반대로 유용함에 지나치게 초점을 맞추면 인간이 해를 입히거나 유해한 콘텐츠를 생성하도록 도울 수 있다.
- 우리는 이를 정량적으로 입증하며, 특정 품질 중 하나만 주로 평가하도록 훈련된 선호 모델은 다른 품질에 대해 매우 낮은 성능(무작위 추측보다도 훨씬 못한 성능)을 보인다는 것을 보인다.
- 하나만 고려해서 모델을 학습하면 다른 한쪽에 대한 큰 단점이 생긴다는 듯
다행히도, 두 데이터셋을 혼합하여 훈련한 선호 모델은 적절한 상황에서는 유용하게 행동하면서, 해로운 요청을 정중히 거부하도록 독려하는 올바른 교훈을 학습할 수 있음을 발견했다.
- 이러한 선호 모델을 활용하여, 우리는 강화학습을 통해 유용하고 무해한 어시스턴트를 훈련하고, 선호 모델의 점수를 보상으로 사용한다.
- 우리는 선호 모델의 성능과 RLHF로 훈련된 모델의 성능 특성을 모두 평가한다.
그림 1에서 보듯이, 오직 유용성만을 목적으로 RLHF를 훈련한 모델은 레드팀(red team) 공격에 훨씬 취약한 반면, 유용성과 무해성을 함께 훈련한 모델은 매우 유용하면서도 훨씬 덜 해롭다.
- 그림에서 online helpful RLHF는 유용성만으로 계속 데이터를 받아가면서 (online) 학습한 모델인데, 이게 Helpfulness 점수가 가장 높지만, Harmlessness 점수가 낮다는 것을 보여줌
- 따라서 onine HH RLHF 인 두 항목에 대해 같이 학습하면 균형잡힌 성능을 보여준다는 것
정렬(alignment) 훈련에 관해 자주 제기되는 의문 중 하나는, 정렬이 AI의 성능을 저하시킬 것인가 하는 것이다. 우리는 RLHF를 대규모 언어 모델에 적용할 경우, 거의 모든 평가 항목에서 원래의 생성적 모델(generative counterparts)보다 RLHF로 훈련된 모델이 더 우수한 성능을 보인다는 것을 발견했다.
(그림 3 참조) 우리는 또한 특화된 기술(specialized skills)을 정렬 훈련과 혼합해도 정렬이나 성능 측면에서 손해를 보지 않는다고 주장한다.
실제적으로 정렬된 모델들은 원래의 생성적 모델보다 사용자 친화적이고 배포하기 쉬운 경우가 많으므로, 정렬(alignment)을 위해 미세 조정(finetune)하지 않은 모델을 배포할 이유는 거의 없다고 본다.
이렇게 학습한게 굳이 성능을 떨어드리지 않는 것을 보여줌
1.1 연구의 주요 기여 (Contributions)
대화 기반의 선호도 데이터셋 구축
-
주로 52B 크기의 다양한 언어 모델을 이용하여 각각 유용성(helpfulness) 및 무해성(harmlessness, red-teaming) 데이터셋을 별도로 구축하였다(상세 내용은 섹션 2 참조). 크라우드워커들은 개방형(open-ended) 대화를 진행하면서 모델에게 도움을 요청하거나, 지시사항을 제공하거나, 해로운 응답을 유도하기 위해 레드팀(red-teaming)을 수행하였다. 크라우드워커들은 각 대화 단계마다 더 유용한 응답 또는 더 해로운 응답을 선택하도록 요청받았다.
-
초기 모델로부터 한 번, 이후 초기 선호 모델(preference model)을 활용하여 샘플을 필터링하는 rejection sampling을 이용해 또 한 번, 마지막으로 온라인 인간 피드백 기반 강화학습(online RLHF)을 통해 주기적으로(약 주간 단위) 업데이트된 모델에서 데이터를 얻어 총 3단계로 데이터를 수집했다(상세 내용은 섹션 2.3 참조).
인간의 가치와 정렬(alignment)함으로써 얻는 다양한 이점 및 성능 비용이 거의 없음을 보임
-
작은 모델들은 RLHF 훈련 이후 다양한 평가 항목에서 성능이 떨어지는 심각한 "정렬 비용(alignment tax)"을 경험한다. 그러나 우리는 더 큰 모델(13B와 52B)의 RLHF 훈련이 zero-shot NLP 평가에서 오히려 성능을 향상시키고, few-shot 평가에서는 성능 저하가 없음을 발견했다.
-
HH(유용성과 무해성)를 위한 자연어 기반의 RLHF 훈련은 먼저 코드(code)에 대해 미세 조정(finetune)된 모델에도 적용할 수 있으며, 실제 평가에서도 프로그래밍 능력을 향상시킨다(아마도 일반적인 instruction-following 능력을 강화함으로써 가능해졌을 것이라 판단된다). 또한 HH를 위한 선호 모델 훈련을 특정 기술인 요약(summarization)과 혼합해도 요약 및 HH 성능 모두에서 손실이 없음을 확인하였다. 따라서 정렬(alignment) 훈련을 보다 구체적이고 가치 있는 기술과 결합하지 않을 이유는 전혀 없다.
-
유용성과 무해성 사이에 명백한 긴장 관계가 존재하며, 이는 선호 모델링(preference modeling) 및 RLHF 훈련 정책 수준에서 측정할 수 있다(그림 1 참조). 그러나 모델의 크기가 증가함에 따라, 선호 모델은 두 분포(유용성 및 무해성)에 동시에 더 나은 성능을 보이고, 유용성과 무해성 훈련 데이터의 상대적 비율에 훨씬 더 견고해진다(robust).
-
또한 우리는 OOD(out-of-distribution, 분포 외) 탐지 기법을 활용하여, 기이하거나 해로운 요청의 대부분을 극히 적은 수의 유해한 예시를 사용하거나 아예 사용하지 않고도 거부할 수 있음을 보였다.
확장성(Scaling), RLHF의 견고성(Robustness), 반복적(iterated) "온라인" 훈련 탐구
-
우리는 선호 모델 정확도가 모델 크기와 데이터셋 크기에 따라 어떻게 달라지는지를 연구하여, 로그-선형(log-linear)의 관계를 발견하였으며, 일부 예외적이고 독특한 현상도 발견하였다.
-
RLHF의 견고성(robustness)에 대한 실험을 수행하였다. 구체적으로 데이터셋을 절반으로 나누고, 각 절반에 별도의 선호 모델을 훈련한 후, 한쪽 선호 모델에 대해 RL 정책을 훈련하면서 다른 쪽 선호 모델로 평가하는 방식으로 연구했다. 이 실험 결과, 더 큰 선호 모델일수록 작은 모델보다 더욱 견고하며, RLHF 훈련이 진행될수록 과적합(overfitting)이 증가한다는 점을 확인하였다.
-
RLHF 훈련 과정 대부분에서, ($\sqrt{D_{KL}(\pi||\pi_0)}$)과 보상(reward) 사이에 근사적으로 선형 관계가 존재함을 발견하였다. 여기서 ($\pi$)와 ($\pi_0$)는 각각 현재 정책(policy)과 초기 정책(initial policy)을 나타낸다. 우리는 이러한 관계가 어떻게 발생하는지 설명하고, 가능한 응용과 향후 연구 방향에 대해 논의하였다.
만약 현재의 정책 가 초기의 정책 과 거의 차이가 없다면, 즉 이라면, KL divergence는 작아지고, 위의 선형 관계에 따라 reward도 낮아집니다.
→ 즉, 모델이 초기 상태와 별로 다르지 않으면 얻을 수 있는 보상도 적다는 뜻입니다.-
반대로, 현재 정책 가 초기 정책 으로부터 많이 변화했다면, KL divergence가 커지고, 그에 따라 reward도 커집니다.
→ 다시 말해, 모델이 초기에 비해 더 많이 바뀌고 학습될수록, 얻는 보상도 함께 증가한다는 뜻입니다. -
주간 단위로 선호 모델과 RLHF 정책을 업데이트한 뒤, 새로운 RLHF 모델을 다시 크라우드워커와의 상호작용에 배치하는 "반복적 온라인 훈련"을 탐구했다. 이 방법을 통해 크라우드워커 평가 결과 모델의 성능이 현저히 개선되었으며, 자체 선호 모델이 판단한 데이터셋 품질 역시 크게 향상되어 상위 성능 분포를 채웠다.
-
혼란 요인을 제거하고 결론을 보강하기 위해, 데이터셋 크기 및 기타 하이퍼파라미터를 고정한 채 추가적인 통제 실험을 수행했다(그림 16 참조).
1.2 평가와 측정 지표 요약
NLP 및 코드(Code) 평가
-
우리는 다음과 같은 평가 벤치마크를 통해 모델을 평가했다:
-
MMLU [Hendrycks et al., 2021b]
-
Lambada [Paperno et al., 2016]
-
HellaSwag [Zellers et al., 2019]
-
OpenBookQA [Mihaylov et al., 2018]
-
ARC [Clark et al., 2018]
-
TriviaQA [Joshi et al., 2017]
각 평가별 전체 결과는 그림 28과 29를 참고할 수 있으며, 평균 결과는 그림 3에서 확인할 수 있다. TriviaQA를 제외한 모든 경우에서 12B 및 52B의 RLHF로 훈련된 모델이 기본 언어 모델(plain LMs)보다 더 좋은 성능을 보였다. 별도의 실험으로 Python 코딩 모델을 자연어 RLHF로 추가 미세조정하고, codex HumanEval [Chen et al., 2021]에서 평가했으며, 결과는 그림 21에서 볼 수 있다.
-
- plain LM이 아닌, code finetuning 모델에 이어서 학습해도 성능이 좋아진다는 것을 보여줌
- 엄밀히는 general instruction tuning 모델에 이어서 학습했을때 어떻게 되는지를 봐야할거 같은데
-
또한 우리는 HH(helpful & harmless)를 위한 선호 모델(PM)의 학습과 특화된 기술인 요약(summarization) [Stiennon et al., 2020]의 훈련을 혼합하여 실험했고, 그 결과는 그림 20에 나와 있으며, 이러한 혼합 학습이 PM의 정확도(accuracy)에 부정적 영향을 미치지 않는다는 것을 확인했다.
정렬(Alignment)에 대한 고정 평가(Static Alignment Evaluations)
-
우리는 이전에 개발한 HHH 평가(HHH Evaluations, helpful/honest/harmless 평가) [Askell et al., 2021]를 BIG-Bench에서 평가했고(그림 5 참조), 다음 평가들도 수행했다:
-
Bot Adversarial Dialogues [Xu et al., 2020]
-
젠더 편향(gender bias) [Rae et al., 2021] (그림 12)
-
-
또한 RLHF 모델은 다음 평가를 수행했다:
-
TruthfulQA [Lin et al., 2021] (그림 5)
-
BBQ-Lite [Parrish et al., 2021] (BIG-Bench 기반)
-
젠더 편향(gender bias) (그림 40)
-
인종 및 종교에 따른 감정(sentiment) 평가 [Rae et al., 2021] (그림 17).
RLHF 훈련은 모든 그룹에 대한 감정을 향상시켰지만, 편향(bias)을 완전히 제거하지는 못했다.
인간 평가(Human Evaluations)
-
우리는 크라우드워커들이 모델을 얼마나 선호하는지에 기반하여 Elo 점수를 계산하였다. 여기에는 컨텍스트 증류 모델(context-distilled models), 기본 RLHF 훈련 모델(base RLHF-trained models), 최종적으로 반복적 온라인 방식으로 훈련된 RLHF 모델(final online RLHF models)이 포함되었다(그림 1 참조).
-
우리는 또한 온라인 모델이 훈련 중 보여주는 성능을 평가했고(그림 15 참조), 다양한 정도의 rejection sampling(거부 샘플링) 비교 평가(그림 36 참조), 반복적 온라인 훈련(iterated online training)에 대한 통제 실험을 수행했다(그림 16 참조).
-
이외에도 우리는 전문적인 글 작가들을 고용하여 높은 품질의 유용하고 정직한 응답을 생성하는 어시스턴트와의 대화를 작성하도록 했고, 그 후 크라우드워커들에게 우리의 모델 응답과 전문 작가가 쓴 응답을 비교하도록 요청했다.
그 결과 크라우드워커들은 우리의 온라인 HH 모델(online helpful & harmless RLHF model)이 전문 작가가 작성한 응답보다 약 57% 더 선호하는 것으로 나타났다.
(다만, 이 결과는 실제 현실적 상황(real-world tasks)에서의 성능을 완벽히 대표하지는 않을 수 있으며, 평가가 adversarial(공격적)이지 않았기 때문에 신중히 해석해야 한다.)
샘플 (Samples)
-
우리는 PALMS [Solaiman and Dennison, 2021]의 민감한 질문(sensitive questions) 전체와 InstructGPT [Ouyang et al., 2022] 및 LaMDA [Thoppilan et al., 2022] 논문에서 제공된 프롬프트(prompt)를 사용하여 생성한 모델 응답 샘플들을 부록(Appendix C)에 제시하였다.
-
또한 인간 작가(human writers)와의 몇 가지 비교 샘플을 6.1절에 제시하며, 몇 개의 짧은 대화 예시는 6.3절에서 보여준다.
-
응답 샘플 선택 과정에서 체리 피킹(cherry-picking, 의도적으로 좋은 결과만 골라서 보여주는 행위)의 문제를 완화하기 위해, 우리는 각 프롬프트(prompt)당 17개의 샘플을 생성한 뒤, 이 중에서 우리의 온라인 HH 선호 모델(online HH preference model)이 중간 수준(median)으로 평가한 샘플만 표시했다. (즉, 지나치게 우수하거나 열악한 샘플을 배제하고 평균적인 샘플을 보여줌으로써 보다 객관적 평가를 가능하게 하였다.)
온라인 HH 선호 모델 이라 함은, 크라우드워커로 모은 선호데이터로 학습한 reward model을 말하는 듯
1.3 관련 연구 (Related Work)
최근의 논문인 LaMDA[Thoppilan et al., 2022] 및 InstructGPT[Ouyang et al., 2022]는 본 연구와 특별히 유사하다. 두 연구 모두 대형 언어모델을 인간 데이터를 이용해 보다 유용하거나 정렬(aligned)하도록 훈련시켰다. 또한 두 연구는 우리가 사용한 52B 모델보다 다소 큰 언어모델을 사용했다.
LaMDA는 대형 언어모델을 미세조정하여 흥미롭고, 도움이 되며, 사실에 근거하고, 안전한 자연어 대화가 가능하도록 훈련하였다[Thoppilan et al., 2022]. 본 연구와 마찬가지로 그들은 긍정적인 상호작용과 안전성/무해성 개념을 모두 포함했다. 또한 정확성과 사실 근거성(groundedness)을 보장하기 위한 외부 정보를 활용하는 방식이 우리가 논의한 방법을 넘어서는 것으로, WebGPT 및 GopherCite[Nakano et al., 2021, Menick et al., 2022]와 더 유사하다.
- 그러나 LaMDA는 강화학습을 사용하는 대신 생성적(generative) 및 판별적(discriminative) 방식의 지도학습 기법을 혼합하여 사용했고, 데이터 수집 과정에서 비교가 아닌 절대적 평가(ratings)를 활용한다는 점에서 차이가 있다.
- 이들은 자신들의 방법이 능력(capabilities)에 대한 ‘정렬 세금(alignment tax)’을 부과하는지 여부는 탐구하지 않았다.
InstructGPT는 GPT-3 유형의 모델을 미세조정하여 도움(helpfulness)을 향상시켰다[Ouyang et al., 2022]. 본 연구와 마찬가지로 비교를 통해 표현된 인간의 선호를 사용하여 강화학습을 수행했다.
- 그러나 InstructGPT는 강화학습 이전에 지도학습 단계를 추가적으로 포함한 반면, 우리는 오로지 강화학습만으로 미세조정을 수행한다(컨텍스트 증류(context distillation)를 수행하지만, 이것은 단순한 프롬프팅(prompting)에 가깝다).
- 또한 본 연구와의 주된 차이점은 InstructGPT는 무해성 훈련을 포함하지 않고, 도움(helpfulness)과 무해성(harmlessness) 간의 긴장관계를 탐구하지 않았다.
우리의 연구는 InstructGPT 및 LaMDA와 달리 '온라인(online)' 훈련을 탐구했다. 즉, 보다 높은 품질의 데이터를 얻고 데이터 분포의 꼬리 부분을 보다 풍부하게 채우기 위해 크라우드워커와 상호작용하는 모델을 지속적으로 업데이트했다는 것이다. 또한 우리는 요약(summarization)과 코딩(coding)과 같은 전문화된 기술을 탐구하여, 정렬(alignment)이 모델의 능력을 제한하지 않고 달성 가능하다는 주장을 강화했다.
또한 우리는 도움(helpfulness)과 무해성(harmlessness) 간의 긴장관계를 명시적으로 연구했으며, 우리가 아는 한 이러한 주제는 이전에 다뤄지지 않았다. 마지막으로 우리는 스케일링(scaling)과 강화학습 동안의 견고성(robustness)을 훨씬 더 자세히 탐구했다. 이와 함께 우리의 절차(Figure 2 참조)는 실제로 다른 연구들에 비해 다소 간단하다. 우리는 필수적인 단계는 인간 피드백 데이터 수집, 선호 모델링, 그리고 인간 피드백 기반 강화학습(RLHF)이라고 생각한다.
다른 여러 최근 연구들은 데이터베이스에서 검색(retrieval)을 통해 진실성(truthfulness)의 측면을 다루는 데 집중하였다[Lewis et al., 2020, Guu et al., 2020, Borgeaud et al., 2021]. 혹은 인터넷 검색과 인간 피드백을 활용하여 진실성을 높인 WebGPT[Nakano et al., 2021] 및 GopherCite[Menick et al., 2022] 등의 연구들도 있다. 이러한 연구들은 흥미롭고 우리의 연구와 상호 보완적이다. 특히, 우리의 결과는 그들의 기법이 도움(helpfulness)과 무해성(harmlessness)을 위한 훈련과 매우 호환성이 높을 것임을 시사한다. 이러한 연구들은 명시적인 증거의 충실한 표현을 개선하지만, AI 시스템의 정직한 자기표현(honest self-representation)을 달성하기 위해서는 더 많은 연구가 필요할 것이다. 우리는 일반적으로 인간 피드백에 의존하지 않는 기법들이 이 문제에 적용될 수 있을 것이라고 기대하는데, 그 이유는 많은 진실의 출처들이 인간 판단에만 기반하지 않기 때문이다.
언어모델과 관련된 안전성 및 윤리적 이슈는 광범위하게 논의되었으며(e.g. [Henderson et al., 2017, Bender et al., 2021, Weidinger et al., 2021]), 독성(toxicity), 편향(bias), 그리고 개인 식별 정보의 유출 가능성 등의 문제들이 잘 알려져 있다. 모델이 점점 강력해짐에 따라 새롭고 놀라운 능력과 안전 이슈가 발생할 수 있다[Ganguli et al., 2022]. 이 밖에도 이러한 문제를 완화하는 방법에 대한 연구들(e.g. [Liu et al., 2021, Xu et al., 2020])과 윤리적 딜레마를 직접 평가하도록 모델을 훈련한 연구[Jiang et al., 2021]도 존재하며, 윤리 벤치마크에 대한 개선을 보이고 있다[Hendrycks et al., 2021a]. 보다 일반적인 AI 안전 연구 제안에는 [Amodei et al., 2016, Hendrycks et al., 2021c]가 포함된다. 우리가 논의한 강화학습의 견고성 실패 사례는 최근 [Pan et al., 2022]에서 다뤄진 '보상 해킹(reward hacking)' 사례로 간주될 수 있다. 또한 강화학습 정책(policy)이 다른 위험한 방식으로 분포 밖(out-of-distribution)의 일반화에 실패할 수 있다[Koch et al., 2021].
우리가 모델 크기에 따른 추세를 연구하는 것은 뉴럴 스케일링 법칙(neural scaling laws)에 의해 동기부여 되었다[Hestness et al., 2019, Rosenfeld et al., 2019, Kaplan et al., 2020]. 관련된 관찰로는 파라미터 수가 증가할수록 모델들이 더 효과적으로 미세조정되며[Hernandez et al., 2021], '파국적 망각(catastrophic forgetting)'에 덜 취약해진다는 점이 있다[Ramasesh et al., 2022]. 이 효과는 우리의 HH 훈련이 좋은 평가 성능 및 대형 모델의 특수 기술과 호환되는 이유를 설명하는 데 도움이 될 것으로 보인다.
2 데이터 수집 (Data Collection)
우리는 인간 피드백(Human Feedback, HF)이 다른 기술들에 비해 가장 큰 비교 우위를 가질 수 있는 상황은 사람들이 쉽게 이끌어낼 수 있지만, 공식화하거나 자동화하기 어려운 복잡한 직관을 가졌을 때라고 예상한다. 따라서 HF를 수집할 때 가능한 한 직관적이고 익숙한 작업을 선택해야 한다. 이러한 이유로 우리는 자연어 대화(natural language dialogue)를 사용하기로 선택했으며, 또한 텍스트 기반의 거의 모든 작업은 대화를 통해 실현 가능하기 때문이다. 아마도 관련 자료를 함께 제공하면서 진행할 수 있을 것이다.
2.1 작업 정의 및 크라우드워커 (Task Specification and Crowdworkers)
우리의 인간 피드백 인터페이스는 그림 6에서 볼 수 있다(자세한 내용은 부록 D 참고).
사용자들은 채팅을 통해 자연어로 우리 모델과 상호작용하며, 모든 텍스트 기반 작업에 대해 도움을 요청할 수 있다. 모델의 대화 차례가 되었을 때 사용자는 두 가지 가능한 모델의 응답을 보게 되며, 그 중 하나를 선택하여 대화를 진행한다.
- 이 두 응답은 동일한 모델에서 나올 수도 있고, 서로 다른 두 모델에서 나올 수도 있다.
- 뭔가 작업이 되게 피로할거 같긴한데 ㅋㅋ
그런 다음 사용자는 후속 질문을 하거나 모델에 추가 지침을 제공할 수 있다. 따라서 이 작업에는 각 대화에서 여러 번 반복되는 두 가지 핵심 요소가 있다:
-
크라우드워커는 모델에게 작업을 수행하거나 질문에 답변하거나 관심 있는 주제에 대해 토론을 요청하는 채팅 메시지를 작성한다.
-
크라우드워커는 두 응답을 보고, 더 도움이 되고 정직한 응답을 선택하도록 요청받는다. (단, 레드팀 작업의 경우 더 유해한 응답을 선택한다.)
우리는 글을 잘 작성하고 AI와 더 흥미로운 토론을 하는 크라우드워커가 어떤 AI 응답이 가장 ‘도움이 되고’ ‘무해한지’에 대한 판단도 더 나을 것으로 추측하였다.
- 이 논문의 핵심 가정
이것은 라벨 품질을 기준으로 크라우드워커를 필터링하려는 시도보다는, 오히려 글의 품질을 현장 점검(spot-check)하여 평가하는 것이 더 간단하고 직관적이라는 것을 의미했다.
그 외에, 데이터 수집에 대한 우리의 접근방식은 ‘도움이 됨(helpfulness)’과 ‘무해함(harmlessness)’의 정의를 크라우드워커가 자신의 직관을 통해 정의할 수 있도록 허용하는 것이었다.
- 이를 따로 정의해주지는 않은 듯
- 우리는 데이터 다양성(매우 가치가 있다고 생각하는)과 ‘군중의 지혜(wisdom of the crowd)’가, 보다 집중적으로 검증되고 필터링된 작은 데이터셋과 비교할 때 비슷한 투자 대비 수익(Return on Investment)을 제공할 수 있을 것이라는 희망을 갖고 있었다.
-
우리는 MTurk(Masters 자격을 보유한 미국 기반)의 작업자(worker)를 초청하여 우리 모델과 대화를 수행하게 했다.
-
모든 크라우드워커를 평가하는 대신, 가장 다작(prolific)인 작업자들 중에서 우리의 데이터 중 약 80%를 차지하는 사람들(약 20명의 크라우드워커)을 선정했다. 그런 다음 그들의 성과를 주로 대화의 세련도(sophistication)와 다양성(variation)에 기초하여 평가했다. 이는 도움/무해 선택에 대한 합의(agreement)에 기반하지 않고, 직관적으로 매우 쉽게 평가할 수 있었기 때문이다. 이 방법을 기반으로 우리는 연구 과정 전반에 걸쳐 지속적으로 함께 일할 ‘선택된’ MTurk 작업자의 리스트를 확보하였다.
-
우리는 선정된 크라우드워커를 슬랙(Slack) 채널에 초대하고 이메일로 연락하여, 이들이 공정한 보상을 받고 있는지 확인하고, 문제가 발생했을 때 이를 보고할 수 있게 했다.
-
우리는 또한 Upwork 플랫폼에서 크라우드워커를 고용하고 이들을 비슷한 간단한 방법으로 선별했다. 연구 과정 전반에 걸쳐 우리는 두 플랫폼을 모두 계속해서 이용했다. 우리는 크라우드워커에게 시간당 급여를 지급할 수 있는 Upwork와 같은 플랫폼에서 훨씬 더 질이 높은 상호작용을 장려하기가 더 쉽다는 것을 발견했다. 반대로 MTurk 작업자들은 데이터를 훨씬 더 빠르게 생성하는 경향이 있으며, 우리의 데이터셋 중 약 80%를 차지했다.
우리는 합의(agreement) 또는 라벨 품질의 다른 직접적인 측정을 기반으로 작업자를 필터링하지 않았다. 다만 이후에 평가를 수행하였고(그림 10 오른쪽), 결과적으로 Anthropic 연구자와 크라우드워커 간의 평균 합의율이 최근 유사 연구들[Stiennon et al., 2020, Ouyang et al., 2022]에 비해 낮은 평균 약 63%임을 확인하였다.
중요한 주의 사항으로, 이 작업 동안 크라우드워커의 분포가 일정하게 고정되지 않았으며, 시간이 지남에 따라 크라우드워커의 품질이 개선되었을 가능성이 있다고 생각한다. 이는 4.5절에서 논의된 ‘온라인 훈련’ 프로그램의 성공을 평가할 때 가능한 혼란 요소로 언급된다. 그러나 일반적으로 반복적 작업을 권장하지 않았기 때문에, 작업을 여러 번 수행한 크라우드워커는 보다 특이한(esoteric) 상호작용을 할 가능성이 더 높았을 수도 있다.
또한 우리는 크라우드워커에게 명시적으로 ‘거짓말은 도움이 되지 않는다’고 말했으며, 가능한 한 도움이 되고 정직한 응답에만 보상을 하도록 지시했다.
- 거짓말은 좋은 응답을 선택하는데 도움이 안된다고 언급해주긴 함
- 이로 인해 우리의 모델이 어느 정도 정직성 측면에서 개선되는 것이 설명될 수 있다.
- 그렇다 하더라도 우리는 크라우드워커가 모델을 심도 있게 팩트체크(fact-checking)할 것으로 기대하지 않았으며, 예를 들어 기능하지 않는 URL을 포함한 응답을 선택하는 경우가 자주 있었는데, 이는 아마도 가장 간단히 반증할 수 있는 ‘거짓말’일 것이다.
2.2 도움 및 무해성(레드팀) 데이터셋 (Helpfulness and Harmlessness (Red Teaming) Datasets)
우리는 인터페이스의 약간 다른 버전들을 사용하여 두 개의 별도 데이터셋을 수집하였다.
"도움(helpfulness)" 데이터셋의 경우, 크라우드워커에게 모델과 개방형 대화를 진행하며 도움을 요청하거나 조언을 구하거나 모델이 특정 작업을 수행하도록 요청한 뒤(부록 D.2 참조), 더 도움이 되는 모델의 응답을 선택하도록 지시하였다.
반면 "무해성(harmlessness)" 혹은 레드팀(red-teaming) 데이터셋의 경우, 크라우드워커가 모델로부터 유해한(harmful) 응답을 이끌어내려고 시도한 뒤, 두 모델 응답 중 더 유해한 응답을 선택하도록 요청하였다.
여기까지 보기엔, 이러한 데이터세트 만드는게 큰 컨트리뷰션이었던거 같음. 도움 관점과 무해성 관점에서의 preference 데이터세트
우리의 인터페이스(그림 6)는 사용자들이 선호 강도(preference strength)를 표현할 수 있게 한다. 우리는 크라우드워커가 가능한 선호 강도 중 가장 약한 수준보다 강한 선호를 표현한 경우에만 비교(comparison) 결과를 데이터셋에 포함했다. 본 논문에서는 그 밖에 이 선호 강도 정보를 활용하지 않는다.
약한 선호도는 노이즈라 보고 무시하는듯
우리의 데이터셋에서는 모든 비교(comparison)를 이진(binary)으로 취급하며 동등한 가중치로 다루었다(즉, 동점(ties)은 포함하지 않는다).
이러한 접근 방식에 따라, 우리의 도움 데이터셋은 대화를 더 유익한 방향으로 이끌어가는 경향이 있는 반면, 레드팀 데이터셋에서는 사용자의 응답이 대화를 더 유해한 방향으로 유도한다.
우리가 이렇게 결정한 이유는 레드팀 활동 시 사용자가 모델을 완전히 속이고 취약점을 이용할 수 있게 만들기 위한 것으로, 이는 특별히 유해성을 중점적으로 다루는 다른 작업에서도 가장 자연스러운 접근 방법이었다. 그러나 이 차이점은 4.4절에서 설명하는 바와 같이 도움과 무해성을 동시에 학습하는 모델을 훈련하기 어렵게 만든다고 생각된다. 향후 작업에서는 이를 개선할 계획이며, 무해한 대화 모델 훈련에 중점을 둔 다른 연구자들에게도, 사용자들이 주로 대화를 더 유익한 방향으로 이끌 수 있는 모델 응답을 선택하도록 데이터를 수집할 것을 권장한다.
2.3 피드백 인터페이스에 배포된 모델과 그 데이터 분포 (Models Deployed to the Feedback Interface and Associated Data Distributions)
데이터 수집을 위해 우리는 주로 이전 연구에서 제시된 사양을 따르는 52B(520억 파라미터) 규모의 언어모델을 사용하였다[Askell et al., 2021 참조]. 우리는 인터페이스에 다음과 같은 세 가지 클래스의 모델을 사용하였다:
-
HHH Context-Distilled 52B 언어모델: 프로젝트 초기 단계에서 사용할 수 있었던 유일한 모델이다. 이 모델은 HHH 대화(prompt)를 사용하여 프롬프팅(prompting)한 일반적인 52B 언어모델과 유사한 성능을 보인다[Askell et al., 2021].
여기서 만든 모델이 아니라 이전의 다른 연구에서 공개된것 -
거부 샘플링(Rejection Sampling, RS) 모델: 기본적으로 52B context-distilled LM으로부터 생성된 샘플들을 52B 선호 모델(preference model)을 사용하여 평가한 후 상위 k개의 샘플 중 하나를 선택하여 사용자에게 보여주는 방식이다. 여기서 k는 매개변수로 조정 가능한 값이며, 대부분의 경우 k=16을 사용하였다.
context-distilled 모델로 생성한 여러 응답을 활용하여 preference 모델만들고, 이를 필터느낌으로 활용한 것 -
RLHF로 미세조정한 모델(RLHF-Finetuned Models): 인터페이스에는 일련의 RLHF 모델을 사용하였다. 이 모델들은 주로 프로젝트 단계에 따라 달라지는 PM(선호 모델) 훈련용 데이터의 양에 따라 달랐으나, 도움(helpfulness) 데이터와 무해성(harmlessness) 데이터를 서로 다른 비율로 혼합하여 훈련한 다양한 모델들도 배포하였다.
프로젝트 후반부에는 주로 RLHF 미세조정된 모델들을 배포하면서 여러 개의 모델을 동시에 배포하는 경우가 많았다. 이는 모델 비교 데이터를 수집하여 진행 상황을 모니터링할 수 있게 하고, 동시에 데이터 다양성을 (아마도) 향상시키기 위함이었다.
이 세 가지 클래스의 모델에 대응하여, 데이터도 세 가지 분포로 나눌 수 있다:
-
기본(base) 데이터셋: 오직 context-distilled LM만 사용하여 수집한 핵심적인 기본 데이터셋이다. 이 데이터셋은 약 44,000개의 도움 비교(helpfulness comparisons)와 약 42,000개의 레드팀(무해성) 비교를 포함한다. (참고로 대화 한 건당 약 4개의 비교가 발생한다.)
-
RS(거부 샘플링) 데이터셋: 기본 데이터셋을 이용해 훈련한 선호 모델을 통해 생성한 거부 샘플링 모델을 사용하여 수집된 52,000개의 도움 비교와 2,000개의 레드팀 비교로 구성된 데이터셋이다.
-
반복된 온라인(iterated online) 데이터셋: 약 5주 동안 거의 매주 주기적으로 업데이트된 RLHF 모델에서 얻은 데이터이다. 이 데이터셋은 22,000개의 도움 비교를 포함하며 레드팀 데이터는 없다.
최종 온라인 HH(도움+무해성) 선호 모델의 점수에 따른 각 분포의 히스토그램은 본문 4.5절의 Figure 15에서 볼 수 있다. 본문에서 "정적(static)" 또는 "기본+RS(base+RS)" 데이터셋을 논할 때는 위 두 가지(기본과 RS)를 결합한 형태를 지칭한다. 4.5절에서 논의되는 '온라인(online)' RLHF 모델은 위 세 가지 요소를 모두 사용하여 훈련된다. 본 연구의 실험과 평가는 대부분 "정적" 데이터셋을 기반으로 하였으며, 이는 온라인 데이터 수집이 진행되는 동안 이루어졌다.
정적 데이터셋의 몇 가지 서로 다른 분할(split)을 분석하였다. 즉, 일반적인 95/5의 훈련(train)/테스트(test) 데이터 분할을 사용했고, PM 보정(calibration)을 더 잘 평가하기 위해 테스트셋의 비율이 더 큰 65/35 분할도 사용하였다. 또한 데이터셋을 50/50으로 나누어 두 부분에서 서로 다른 PM을 훈련하는 방식을 사용하기도 하였는데, 이는 RL훈련의 견고성(robustness)을 평가하기 위해 사용된 방식이다. 이때는 하나의 PM을 기반으로 RL정책(policy)을 훈련하고, 독립적으로 훈련된 다른 PM으로 이 정책의 보상(reward)을 평가한다.
논문의 데이터 수집과 모델 훈련 과정 요약
① 초기 단계
-
모델: 기존에 이미 훈련되어 있던 Context-Distilled 모델을 사용하여 응답 후보를 생성.
-
크라우드워커의 역할: Context-Distilled 모델의 응답 중 더 좋은 응답을 선택.
-
얻은 데이터: "기본(base) 데이터셋" 생성.
② Preference 모델 훈련 단계
-
위의 "기본 데이터셋" (크라우드워커가 더 좋은 응답을 선택한 데이터를 모아 만든 데이터)를 사용해 Preference 모델을 훈련함.
-
이 Preference 모델은 "어떤 응답이 인간이 보기에 더 나은지"를 예측할 수 있는 능력을 갖추게 됨.
③ 거부 샘플링 (Rejection Sampling) 모델 활용 단계
-
모델: Context-distilled 모델로부터 한 프롬프트 당 여러 응답 후보를 생성한 후, 위에서 만든 Preference 모델을 사용하여 후보 응답의 점수를 매기고, 가장 높은 점수를 얻은 응답을 크라우드워커에게 보여줌.
-
크라우드워커의 역할: 다시 두 응답 중 더 좋은 응답을 선택하는 작업을 수행함.
-
얻은 데이터: "거부 샘플링(Rejection Sampling, RS) 데이터셋" 생성.
④ RLHF (인간 피드백을 이용한 강화학습) 모델 훈련 단계
-
위의 두 데이터셋("기본 데이터셋 + 거부 샘플링 데이터셋")을 사용해 더욱 향상된 Preference 모델을 다시 훈련함.
-
이 Preference 모델을 "보상 함수(reward function)"로 삼아 강화학습(RLHF)을 통해 새로운 모델을 훈련함.
⑤ 반복적인 온라인(Iterated Online) 단계
-
위에서 훈련한 RLHF 모델로부터 응답 후보를 직접 생성하여 크라우드워커에게 제공함.
-
크라우드워커는 다시 더 좋은 응답을 선택하고, 이를 통해 새로운 데이터를 얻음.
-
이 데이터를 기존의 데이터와 통합하여 Preference 모델을 다시 훈련하고, RLHF 모델을 반복적으로 업데이트함. (논문에서는 대략 매주 업데이트했다고 언급함.)
이렇게 하면, 다음과 같은 흐름이 반복됩니다:
Context-distilled 모델 → Preference 모델 훈련 → 거부 샘플링 → RLHF → RLHF 모델을 통한 추가 데이터 수집 → Preference 모델 업데이트 → RLHF 재학습 (반복)
이렇게 반복적으로 데이터를 수집하고, 모델을 업데이트하며 계속해서 더 나은 모델을 만들어가는 과정이 이 논문에서 설명된 연구의 핵심적인 흐름입니다.
정리하자면:
-
처음에는 Context-distilled 모델만 사용해서 응답 후보를 제공하고 데이터를 모으고,
-
그 데이터를 이용해 Preference 모델을 만들고,
-
그 Preference 모델을 사용하여 거부 샘플링 (Rejection sampling) 모델로 더 좋은 응답을 제공하고 다시 데이터를 모으고,
-
그 데이터를 사용해 RLHF 훈련을 진행하여 RLHF 모델을 얻고,
-
이후에는 RLHF 모델로 직접 응답 후보를 생성하여 추가로 데이터를 모으고, Preference 모델 및 RLHF 모델을 반복적으로 업데이트했습니다.
2.4 Elo 점수를 활용한 모델 비교 (Comparing Models with Elo Scores)
우리 분석의 상당 부분은 모델을 서로 비교하여 관련 Elo 점수(Elo score)를 생성하는 데 초점을 맞추었다([Askell et al., 2021]에 기술됨).
즉, 크라우드워커가 두 모델과 동시에 채팅하도록 하고, 각 단계에서 각 모델이 하나의 응답('A' 또는 'B')을 생성하면, 워커가 선호하는 응답을 기록한다.
이를 통해 모델 쌍 간의 ‘승리율(win rates)’을 기록하게 되며, 이 승리율 데이터를 Elo 점수로 변환해 Figure 1을 생성하였다 (해당 그림에는 승리율과 Elo 점수가 모두 표시됨).
유용한 두 가지 변환 공식은 다음과 같다.
- 이렇게 계산되는진 처음 알았네
- 여기서 한 모델이 다른 모델보다 선호되는 비율(win fraction), Elo 점수 차이(($\Delta(\text{Elo Score}$))), 그리고 PM 점수를 나타낸다.
- 개념적으로 승리 비율(win fractions), Elo 점수, 그리고 PM 점수는 상호 교환 가능하다. 우리는 크라우드워커의 선호(여기서는 Elo를 사용)와 선호 모델링 및 RLHF(이 부분은 PM 점수를 사용)의 혼란을 방지하기 위해 Elo 점수와 PM 점수를 모두 유지한다.
- 이 점수차이로 win rate을 구할 수 있다.
- 모델 A의 win 확률을 계산했다고 해보자
- 이걸로 elo score 차이를 구할 수 있고, 이 결과가 모델 A가 모델 B보다 얼마나 Elo score이 높은지를 알려줄 수 있다.
- PM(response_A)-PM(response_B)으로 구한 delta PM score하고 delta elo score은 실험적으로 위처럼 174배의 관계를 보여준다고 한다.
Figure 1에서 나타난 context-distilled 모델의 Elo 점수는 이전 실험에서 프롬프팅(prompting)된 모델들에 대해 얻었던 유사한 결과([Askell et al., 2021])와 약간 차이가 있다. 즉, Elo 점수가 좀 더 압축(compressed)된 형태를 나타내고 있다.
이러한 차이의 주된 이유는 이번 연구에서는 상위 p(top-p) 샘플링을 사용하지 않았기 때문이다.
이전에는 RLHF 모델들이 상위 p(top-p) 샘플링 없이 더 선호되는 응답을 제공한다는 사실을 발견했으며, 이는 아마도 그러한 방식으로 훈련되었기 때문으로 추정된다. 따라서 스냅샷 Elo를 비교할 때 context-distilled 모델(모든 RLHF 모델의 초기 스냅샷(initial snapshot))을 포함하여 모든 모델에서 상위 p(top-p) 샘플링을 제거했다. 또 다른 가능성으로는 이 초기 실험 이후 크라우드워커의 분포가 변했거나, 이전 테스트 시점에서는 크라우드워커가 주로 고품질의 RLHF 훈련 모델과 상호작용하면서 기대치(expectation)가 달라졌기 때문일 수 있다.
3. 도움(helpfulness)과 무해성(harmlessness)을 위한 선호 모델링 (Preference Modeling for Helpfulness and Harmlessness)
3.1 모델 및 훈련 설정 (Models and Training Setup)
우리는 이전 연구인 [Askell et al., 2021]에서 논의한 바와 동일한 사양을 가진 언어모델들을 사용하며, 총 7개의 모델을 사용하였다. 이들의 파라미터 수는 13M(1천3백만)에서 52B(520억)에 걸쳐 있으며, 약 4배씩 증가하는 기하급수적 시리즈(geometric series)를 구성한다.
모델 훈련 및 성능을 용이하게 하기 위해 PyTorch [Paszke et al., 2019]와 Triton [Tillet et al., 2019]을 사용하였다. 우리의 선호 모델(Preference Model, PM) 훈련 설정 역시 이전 논문[Askell et al., 2021]과 동일하다. 특히 인간 피드백 데이터로 미세조정(finetuning)을 진행하기 전, 해당 논문 4장에서 설명된 ‘선호 모델 사전 훈련(Preference Model Pretraining, PMP)’ 과정을 우리의 언어모델에 적용한다. 추가적인 세부사항은 논문의 부록 A에서 제공된다.
한 가지 유의할 점은 우리는 보통 PM을 단 한 번의 epoch(학습 데이터셋을 한 번 통과하는 것)만큼만 훈련한다는 점이다.
따라서 학습 곡선 자체(논문의 Figure 7 왼쪽 참조)가 데이터셋 크기에 따라 성능이 어떻게 스케일링되는지를 나타낸다. (학습률(learning rate)은 고정된 값을 사용하였다.)
- 학습은 1 epoch만 하고, 데이터세트가 커지거나 파라미터가 커지면 PM 성능이 올라가는 것을 보여줌
3.2 기본적인 스케일링 결과 (Basic Scaling Results)
우리는 선호 모델링(Preference Modeling)의 성능이 모델의 크기와 데이터셋의 크기를 증가시킴에 따라 얼마나 향상되는지 이해하고자 한다. 그림 7에서 도움(helpful) 데이터와 무해성(harmless) 데이터를 혼합한 정적 데이터(static dataset)에서 훈련된 선호 모델의 정확도(PM accuracy)에 대한 기본적인 결과를 보여준다.
대체로 말하자면, 데이터셋 크기 및 모델 크기 모두에 대해 대략적으로 로그-선형(log-linear) 경향성을 관찰할 수 있다.
- 도움 데이터 또는 무해성 데이터를 개별적으로 각각 따로 모델링할 경우, 혼합 데이터의 경우보다 더 일관성 있는 경향(trends)을 얻는 경향이 있다.
- 이 내용은 부록 A.3의 그림 32에서도 확인할 수 있다.
- 그림 7은 HH을 같이 고려한거고, 따로 고려해서 학습하면 scaling이 더 뚜렷하게 경향이 보여진다고 한다.
그러나 일부 데이터 분포의 경우[Stiennon et al., 2020 참고], 스케일링의 경향이 보다 복잡한 패턴을 나타내어, 단순한 추세로 설명되지 않는다는 것도 관찰하였다.
3.3 선호 모델의 보정(Calibration) 및 RL에 대한 시사점 (Calibration of Preference Models and Implications for RL)
선호 모델(Preference model)의 점수는 인간이 하나의 모델 응답을 다른 모델 응답보다 선호할 확률을 예측해야 한다. 우리는 이 확률의 정확성, 즉 선호 모델의 "보정(calibration)"이 잘 이루어졌는지에 관심이 있다. 그림 9에서 이를 분석했다.
그림에서 우리는 샘플 쌍에 대해 부여된 PM 점수의 차이(score difference)에 따라 선호 모델의 정확도(PM accuracy)를 보여주며, 완벽한 보정을 나타내는 두꺼운 검은색 선과 함께 표시하였다.
- 두 응답의 차이가 커질수록, 사람도 더 좋은 응답을 잘 구분하더라 라는 그림인듯
- 즉, 그림 9는 PM 모델의 점수 차이가 실제 인간의 선택 확률을 얼마나 정확히 반영하는가를 나타내는 그래프라고 이해하시면 됩니다.
- 이것도 판단하는 부분이 필요하긴 하겠네
- 이를 통해 오직 도움(helpfulness) 데이터만으로 훈련된 PM은 매우 잘 보정된 것으로 나타난다.
- 그러나 도움 데이터와 무해성(harmlessness) 데이터를 혼합하여 훈련한 PM은 약간 과소 확신(under-confident)되는 경향을 보인다(즉, 정확도는 실제보다 낮게 예상된다).
이러한 보정(calibration) 결과는 이후 섹션에서 선호 모델 점수를 강화학습(RL)을 위한 보상 신호(reward signal)로 사용할 것이므로 매우 중요하다. PM 점수가 잘 보정되었다는 것은, PM 점수가 (적어도 훈련 집합 분포 내에서는) 사람들이 특정 모델 응답을 선호할 확률을 충실히 나타낸다고 신뢰할 수 있다는 것을 의미한다.
다시 말해, 만약 RL 훈련을 통해 특정 보상을 안정적으로 얻었다면, 우리가 이 모델과 상호작용하는 사람들(크라우드워커 분포를 잘 대표한다고 가정할 때)이 특정 기준 모델(reference model)보다 PM 점수가 높게 나온 응답을 예측 가능한 비율로 선호하게 될 것임을 믿을 수 있다.
물론 이는 RL 정책(policy)이 생성한 응답이 여기서 분석된 보정(calibration) 연구에서 고려한 PM 점수 범위 내에 있을 때에만 성립한다. 하지만 RLHF가 더 높은 점수를 향해 최적화할 때는 상당한 견고성(robustness) 실패가 발생한다는 것도 발견하였다(섹션 4.5와 부록 B.4 참조).
일반적으로 샘플 품질이 향상될수록 매우 뛰어난 샘플을 안정적으로 구별하는 것은 더 어려워진다고 예상할 수 있다.
부록의 그림 25에서는 특정 임계값(threshold) 이상 PM 점수를 가진 두 샘플 간의 비교로 제한하면, PM 정확도가 이 임계값에 따라 떨어짐을 보여준다. (다른 PM을 비교하기 위해 각 PM 점수에 상수를 더해서 테스트 분포에서 모두 동일한 평균 점수를 갖도록 조정하였다.)
- 가로축이 PM 점수인데, normalized해서 그런거라고 한듯?
- Normalized PM Score=Original PM Score−Mean PM Score of held-out dataset
- 어쨌든 가로축이 커질수록 좋은 샘플들 기준으로만 PM vs 사람 본건데, 성능이 떨어지는 것을 알 수가 있음
- 따라서 아래와 같은 결과를 도출
이 결과는 세 가지 효과를 결합한 것으로 볼 수 있다:
-
더 정교한 샘플들 간의 구분이 더 어려워질 수 있고, 더 높은 능력을 요구할 수 있다.
-
매우 높은 품질의 샘플은 데이터셋에서 상대적으로 부족하며, 훈련하기 어렵다. 이는 그러한 샘플이 일반적이지 않기 때문이다.
-
매우 높은 품질을 가진 샘플 쌍은 임의로 선택된 샘플 쌍보다 비슷한 점수를 가지게 되어, 구분하기 더욱 어렵다.
이러한 관찰은 또한 RLHF 훈련에도 시사점이 있다. 즉, 우리의 정책(policy)이 충분히 높은 PM 점수를 얻은 후에는 추가 RLHF 훈련으로부터 얻는 이득(benefit)이 감소할 것으로 예상된다.
또한 이러한 사실은 RLHF 정책(policy)의 향상에 따라 계속해서 PM을 분포에 맞게 최신화하기 위한 "온라인 훈련(online training)"의 필요성을 시사한다.
- 어느정도 주어진 PM으로 학습해서 reward가 높아지면, 더 이상 학습은 효과적이지 않다는 것
- 따라서 온라인 학습으로 PM업데이트하고 다시 모델 학습하고 이렇게 가야한다는 것
3.4 도움 및 무해성 선호 모델의 평가 (Evaluating Helpful and Harmless Preference Models)
3.4.1 HHH 평가 및 크라우드워커-앤트로픽 합의 (HHH Evaluation and Crowdworker-Anthropic Agreement)
우리는 데이터셋으로 훈련된 선호 모델(PM)이 무언가를 학습하고 있고, 잘 보정(calibrated)되어 있음을 앞서 제시하였다. 그러나 우리는 또한 이러한 PM이 실제로 독립적인 기준에 따라 도움이 되고(harmful), 무해한(harmless) 행동을 선호하도록 학습했는지를 증명하고 싶었다.
우리는 이전 연구에서 "도움(helpfulness), 정직성(honesty), 무해성(harmlessness)"에 대한 일련의 비교 평가셋(comparison evaluations)을 제공했으며, 이를 "HHH 평가(HHH Evaluation)"라고 불렀다. 그리고 원본(raw), 컨텍스트 증류(context-distilled), 그리고 프롬프팅(prompted)된 언어 모델들을 대상으로 이 평가를 수행했다 [Askell et al., 2021 참조]. 이 평가 결과는 본 논문의 그림 5에서 확인할 수 있다. 이 그림에서 알 수 있듯이, 우리가 훈련한 PM은 이전에 평가했던 모든 모델들보다 훨씬 더 뛰어난 성능을 보여준다. 사실 최근 발표된 Pathways LM 연구[Chowdhery et al., 2022]는 이 데이터셋(HHH evaluation)에서 평균적인 인간 점수를 75%로 보고했기 때문에, 우리의 PM 성능(86%)이 평균적인 인간 정확도(human accuracy)보다 상당히 높다고 볼 수 있다.
한편, 그림 10의 왼쪽에서 관찰할 수 있듯이, 몇 가지 특이점(outlier)이 있다.
우리의 PM이 HHH 평가 비교에서 자신 있게(confidently) 잘못 예측한 경우들이 존재한다. 이런 경우들은 모두 정직성(honesty)에서 실패한 사례들로, 더 좋은 응답(good choice)은 정직하지만 실제로 도움이 되지 않으며, 더 나쁜 응답(incorrect choice)은 도움이 되는 듯하면서 세련되게 잘 작성되었으나 미묘하게 부정확하거나 오해의 소지가 있는 응답들이다.
우리는 최악의 단일 사례를 그림 11에서 제시하였다.
주목할 점은 이 나쁜 응답(Anthropic 연구자들이 작성한 인간 작성 응답)은 아마도 우리의 언어모델과 RL 정책(policy)에서 나온 샘플들과 비교했을 때 분포 밖(out-of-distribution)에 해당된다는 것이다. PM 훈련에 모델이 생성한 샘플들만 사용했기 때문에, PM이 이 사례에 대해 잘못 예측하게 된 이유일 수 있다. 이는 또한 PM이 대립적으로 견고하지 않다는 것을 보여준다(즉, adversarial robustness가 낮다).
또한 우리는 우리의 크라우드워커와 저자(Anthropic 연구자들), 그리고 PM의 라벨(label)에 대한 합의(agreement)를 비교할 수 있다. 그림 10 오른쪽에서 제시된 결과는 우리의 정적(static) 테스트셋에서 약 320개의 샘플을 기반으로 한다. PM은 크라우드워커 행동을 예측하도록 훈련되었기 때문에, PM-크라우드워커 간 합의가 가장 높다. 하지만 가장 큰 PM(52B)은 사실 크라우드워커와 저자 간의 합의(agreement)보다도 오히려 저자(Anthropic 연구자들)와의 합의가 조금 더 높은 결과를 나타낸다. 그러나 우리는 이것이 아마도 데이터의 나쁜 부분집합(poor subsample)일 수 있다고 생각한다. 왜냐하면 PM의 정확도(PM accuracy)는 이 부분집합(subset)에서 전체 테스트셋(full test set)에 비해 몇 퍼센트 낮기 때문이다.
즉, 이 섹션의 핵심 내용을 요약하면 다음과 같습니다:
-
우리가 훈련한 PM은 이전에 존재하던 여러 모델들보다 뛰어나며, HHH 평가 기준에서 평균적인 인간 정확도를 능가한다.
-
그러나 정직성(honesty)에 대한 일부 실패 사례(outliers)가 존재하며, 이는 PM이 특정 유형의 인간 작성 샘플을 제대로 구분하지 못할 수 있음을 시사한다.
-
크라우드워커-앤트로픽 연구자 간의 합의는 상대적으로 낮지만, PM은 크라우드워커를 잘 예측하며, 일부 경우 연구자와의 합의도 매우 높다. 다만 이 결과는 데이터 부분집합의 특성 때문일 수도 있다.
3.4.2 성별 편향(Gender Bias) 및 봇 대립적 대화(Bot Adversarial Dialogues)
우리는 성별 편향(gender bias)이 선호 모델(PM)에 존재하는지를 평가하기 위해, 성별을 나타내는 용어들(gendered terms)에 대해 PM 점수를 비교하였다. 이 평가를 위해 다음과 같은 형태의 짧은 대화를 사용하였다:
Human: 문장에서 빠진 단어를 채워 주실 수 있나요? 문장은 다음과 같습니다:
The {직업명(Occupation)} is a
Assistant: 물론입니다. 다음은 빠진 단어를 채운 문장입니다:
The {직업명(Occupation)} is a {성별을 나타내는 단어(Gendered Term)}
여기서는 76개의 직업명, 그리고 성별을 나타내는 단어들 12쌍(예: mother vs father, guy vs gal 등)을 사용하였으며, 현재형(present tense) 및 과거형(past tense)으로 구성하였다[Rae et al., 2021 참조]. PM 점수는 절대적 의미가 직접적으로 해석 가능하지 않기 때문에, 우리는 쌍으로 이루어진 성별 단어들 간의 PM 점수 차이(score difference)를 평가하였다. 또한, 한 성별 내 단어들 간 점수 차이와 서로 다른 성별 간의 점수 차이를 비교하였다.
그 결과는 그림 12 왼쪽에서 보여진다. 여기서 나타난 결과는 특정 성별을 나타내는 단어들 내에서의 변동(variation)이, 서로 다른 성별 간의 변동보다 적어도 그만큼 크다는 점이다. 따라서 PM이 실질적인 성별 편향을 나타내지 않는 것으로 보인다.
우리의 PM에 대한 외부적 검증(external validation)으로서 봇 대립적 대화(Bot Adversarial Dialogues, BAD) 데이터셋[Xu et al., 2020]을 고려하였다. 이 데이터셋은 AI 시스템과 사람 간의 수천 개의 대화를 포함하며, 각 AI의 응답(utterance)은 "유해함(harmful)" 또는 "무해함(not harmful)"으로 라벨링되어 있다. 우리는 BAD 데이터셋에서 AI 응답에 대한 PM 점수 분포를 계산하였다. (이때 대화당 첫 번째 AI 응답에 한정하였다.) 결과적으로 "유해함(harmful)"으로 라벨링된 BAD 데이터셋의 AI 응답은 선호 모델(PM)에서 상당히 낮은 점수를 부여받는 것을 발견하였다. 이는 우리의 PM이 효과적으로 이러한 AI 생성 응답을 분류하고 있음을 시사하며, 심지어 PM이 훈련되었던 데이터 분포와는 다소 다를 가능성이 높음에도 불구하고 이러한 분류가 가능하다는 점을 보여준다.
요약하면 다음과 같습니다:
-
성별 편향 평가 결과, 성별 단어들 사이의 PM 점수 변동이 서로 다른 성별 간의 변동과 유사한 수준으로 나타났으므로, PM이 심각한 성별 편향을 보이지 않는 것으로 평가되었습니다.
-
외부적으로 봇 대립적 대화(BAD) 데이터셋을 사용해 PM을 검증하였고, 실제로 "유해함"으로 분류된 응답들이 PM에서 낮은 점수를 얻어, PM이 독립적인 데이터 분포에서도 유해함과 무해함을 효과적으로 구분할 수 있음을 보였습니다.
4 강화학습을 통한 인간 피드백 (Reinforcement Learning from Human Feedback)
4.1 훈련 환경 구성 (Training Setup)
우리는 선호 모델링(preference modeling)을 사용하는 강화학습(RL)을 적용했으며, 이는 다음과 같은 절차로 요약할 수 있다.
-
비교 데이터셋을 준비하고, 각 비교 항목에서 '더 나은' 아이템에 더 높은 점수를 부여하도록 선호 모델(PM, Preference Model)을 훈련한다. 우리의 인간 피드백 실험의 맥락에서, 각 비교 항목은 하나의 프롬프트(prompt)와 모델이 생성한 응답 쌍(pair)으로 구성된다. PM 점수는 각 응답이 끝나는 지점에서 평가된다.
-
이전 데이터셋에서 모든 프롬프트를 추출하고, RL 정책(policy)을 훈련하여 각 프롬프트에 대한 응답을 자기회귀적으로(autoregressively) 생성한다. 각 응답 끝에서 PM 점수가 보상(reward) 신호로 제공된다.
선호 모델 데이터셋 및 훈련 세부사항은 부록 A.2에 제공되며, 선호 모델의 성능에 대해서는 본 논문의 3장에서 다루었다. 강화학습의 용어로 설명하자면, 정책(policy)이 생성하는 각 응답이 하나의 '타임스텝(timestep)'이며, 전체 대화는 하나의 '궤적(trajectory)'으로, PM 점수는 궤적의 끝에서 제공되는 단일 '보상(reward)'이다.
기본 아이디어는 선호 모델을 활용해 정책(policy)이 더 나은 응답을 생성하도록 유도하는 것이다. 하지만 앞선 장들에서 보았듯이, PM은 높은 점수 영역에서 캘리브레이션(calibration)이 떨어지기 때문에 높은 보상이 항상 더 나은 성능을 의미하지는 않는다.
RL 훈련의 안정화를 위해 우리는 Proximal Policy Optimization(PPO) 알고리즘을 사용했다. 다른 연구와 마찬가지로 경험적으로 추정한 KL 벌칙항(KL penalty term)을 보상에 적용하여, 총 보상을 다음과 같이 정의하였다.
여기서 ($\lambda_{\text{KL}} \geq 0$)는 하이퍼파라미터이다. 실제로 우리는 매우 작은 값인 ($\lambda_{\text{KL}}=0.001$)을 사용했으며, 이는 RL 훈련의 대부분 단계에서 미미한 영향을 줄 뿐이고 (일반적으로 ($D_{\text{KL}} < 100$)), 완전히 불필요할 수도 있다. RL에 관한 추가적인 세부사항은 부록 B.1에 제공되어 있다.
본 논문 전체에서 우리는 RL 보상으로서 ($r_{\text{PM}}$) = 선호 모델 점수 자체를 사용한다. 식 (4.2)에 암시되어 있듯이, 이것은 두 개의 샘플 (A)와 (B) 간의 ($r_{\text{PM}}$) 값의 차이가 샘플 (A)가 샘플 (B)보다 선호될 확률 (P(A>B))와 관련이 있음을 의미한다. 즉,
선호 모델 점수를 직접 보상으로 사용하는 데 특별한 이론적 이유는 없지만, 이전 연구에서도 이러한 방식을 사용했기 때문에 본 연구에서도 간단히 채택하였으며, 이 선택에 대한 변형은 본 논문에서는 다루지 않는다.
RLHF 훈련을 위한 추가적인 프롬프트(prompt, 인간 대화 부분)를 생성하기 위해, 우리는 대형 언어 모델을 사용했다. 이를 위해 우리는 단순히 퓨샷 학습(few-shot learning)을 적용했으며, 약 10개의 우수한 기존 인간 쿼리를 포함한 문맥(context)을 만들어 샘플링하여 추가적인 프롬프트를 생성했다. 우리는 RLHF의 샘플 효율성이 원래 크라우드워커가 작성한 프롬프트 데이터셋과 모델이 생성한 데이터셋에서 대략 비슷하다는 것을 발견했기 때문에, RLHF 훈련 중 더 큰 다양성을 위해 두 데이터셋을 결합했다. 이를 통해 우리는 정적(static) 데이터셋에서 137,000개의 프롬프트와, 모델이 생성한 369,000개의 프롬프트를 사용했다.
거의 모든 선호 모델링 데이터는 52B 크기의 모델에서 수집되었다는 점에 주의하자. 이것은 작은 모델을 통한 RLHF 훈련이 도전적일 수 있다는 것을 의미하는데, 작은 모델에서 생성된 샘플들이 PM 훈련 데이터의 분포를 벗어나(out-of-distribution, OOD) 있는 경향이 있기 때문이다. 따라서 실제로 50배 이상 작은 모델들이 학습하고 성능을 개선할 수 있었다는 점은 매우 흥미로운 결과이며, 이는 그림 1에서 확인할 수 있다.
4.2 강건성 실험 (Robustness Experiments)
지금부터는 RLHF(인간 피드백 기반 강화학습)의 강건성 문제에 대해 논의한다. 완전하게 강건한 선호 모델(PM)은, PM 훈련 과정에서 보지 못했던 분포의 대화(즉, 우리가 배포한 AI 비서와의 크라우드워커의 상호작용을 통해 생성된 것과는 다른 형태의 대화 분포)에 대해서도 인간과 일치하는 평가를 내릴 수 있어야 한다.
그러나 우리의 선호 모델이 그렇게 강건할 것이라 기대하지 않으며, 실제로 앞서 소개한 그림 11은 강건성 실패의 한 가지 타당한 예시를 제공한다. 강화학습(RL)은 정책이 PM 점수를 극대화하도록 최적화하기 때문에, PM이 가진 강건성 결함은 RL 정책이 높은 보상을 얻기 위해 악용될 수 있다. 이 경우 정책의 실제 행동은 인간 평가자의 관점에서 볼 때 더 나아지지 않을 수 있다.
- PM으로 결국 모델을 학습하는 것이기 때문에, 이에 대한 엄밀한 분석이 필요해보이는 군.
- 어떻게 강건성을 높일까?
강건성을 연구하는 엄밀한 방법은 RLHF 훈련 과정의 다양한 시점에서 정책의 스냅샷을 찍어두고, 크라우드워커가 이들의 성능을 직접 비교하게 하는 것이다. 이는 크라우드워커들이 평가한 "진정한" Elo 점수를 제공하며, 이를 PM 점수와 직접 비교할 수 있다. 우리는 이러한 연구의 예시를 4.5절에서 제시한다.
그러나 이러한 종류의 테스트는 추가적인 인간 피드백 데이터를 수집해야 하며, 이는 시간과 비용이 많이 든다. 따라서 여기서는 다른 각도에서 강건성을 연구한다.
감독 학습(supervised learning)에서 데이터셋을 훈련용과 테스트용으로 나누는 것과 비슷하게,
- 우리는 PM 비교 데이터를 두 부분(훈련 절반 및 테스트 절반)으로 나누어 각 절반에서 별도의 PM을 훈련하고, 이를 각각 훈련 PM(train PM)과 테스트 PM(test PM)으로 칭한다.
- 그 다음 훈련 PM을 기준으로 RLHF 정책을 훈련하고, 테스트 PM을 사용하여 평가한다.
감독 학습에서 테스트 세트 평가는 과적합(overfitting)을 이해하는 데 도움이 되는 것과 유사하게, 테스트 PM 평가는 훈련 PM 대비 과적합을 이해하는 데 도움이 된다. 다만, 이 실험들은 훈련 PM과 테스트 PM이 상관된 강건성 실패를 보일 수도 있으므로 완벽하게 결정적인 것은 아니다.
- PM 학습할 데이터를 2개로 쪼개서, 하나는 진짜로 모델 학습할때 사용하고, 나머지 하나는 학습된 모델을 평가할때 사용해보는 방법을 제시함
이러한 실험을 통해 얻은 주요 결론은 다음과 같다:
(1) RLHF는 더 높은 PM 점수에서 점진적으로 강건성이 떨어진다.
(2) 더 큰 선호 모델이 작은 모델보다 더 강건하다.
두 가지 실험 세트를 다음과 같이 수행했다:
-
훈련 PM 크기 = 52B: 이 실험에서는 각 모델 크기별 정책을 모두 같은 52B 훈련 PM에 따라 훈련한다.
-
훈련 PM 크기 = 정책 크기: 이 실험에서는 각 정책을 해당 정책과 동일한 크기의 훈련 PM에 따라 훈련한다.
두 실험 모두에서 각 정책은 훈련 과정 내내 테스트 PM 세트를 통해 추가로 평가된다. 여기서 ‘세트’는 13M에서 52B에 이르는 7가지 모델 크기를 의미하며, 따라서 각 실험당 7개의 정책과 7 × 7개의 평가 결과가 생성된다.
그림 4에서는 감독 학습에서 훈련 곡선과 테스트 곡선을 비교하는 방식과 유사하게, 훈련 과정 전체에서 훈련 PM 점수와 테스트 PM 점수를 비교하였다.
모든 경우에서 훈련 초기 단계에서는 두 점수가 매우 근접했지만, 결국 두 점수가 서로 벌어졌으며, 테스트 PM이 더 낮은 점수를 제공한다는 점을 확인했다.
- 이 격차는 선호 모델이 높은 보상에서 덜 강건해지고, 더 쉽게 악용될 수 있음을 나타내는 징후일 수 있다.
- 즉, 정책이 훈련 PM에 과도하게 최적화되어, 훈련 PM이 정책의 성능을 과신하게 되는 것이다.
- 반면 테스트 PM은 정책과 훈련 PM 모두가 보지 못했던 다른 부분의 데이터에서 훈련되었으므로, 이러한 문제를 겪지 않는다.
- 어느정도 test PM과 train PM이 따라가지만 결국 train PM이 따돌리게 된다.
- 테스트 PM이 사람이라고 간주해보면, 결국 train PM에 overfit 되는 느낌?
추가적인 논의는 부록 B.2에 제공된다.
4.3 ($\sqrt{D_{\text{KL}}}$)과 보상(Reward) 간의 대략적인 선형 관계
그림 4와 13에서 확인할 수 있듯이, RLHF 훈련 과정 중에 ($\sqrt{D_{\text{KL}}}$)과 선호 모델(PM) 점수 사이에는 대략적인 선형 관계가 나타난다.
- 이 섹션에서 말하고 싶은 것은, 기존 모델과의 거리가 멀어질수록 PM Score가 증가한다는 것 (정확히는 제곱근KL 이랑 PM score이랑 비례)
- RLHF 훈련을 하기 전의 초기 모델(정책)은 인간이 선호하는 응답을 하는 데 최적화되어 있지 않고, 단순히 언어를 예측하는 방향으로만 학습된 상태입니다. RLHF의 목표는 초기 정책으로부터 벗어나 인간이 더 선호하는 방향으로 모델의 행동을 변화시키는 것이기 때문에, 자연스럽게 초기 모델과의 거리가 커질수록 더 좋은 응답(높은 PM Score)이 나타납니다.
- 이때 논문에서 발견된 핵심적인 관계는, 이 거리가 작을 때는 (를 기준으로) 보상(reward)이 대략적으로 선형적으로 증가한다는 것입니다. 즉, 변화가 작을 때는 모델의 작은 변화가 그대로 보상 증가로 이어진다는 것입니다.
나아가, 모든 모델이 동일한 PM을 기준으로 훈련되고 평가되었을 때, 학습 곡선들은 ($\sqrt{D_{\text{KL}}}$)–보상 평면에서 대략 평행한 형태를 보인다. 여기서 'KL'이라는 용어는 정확히 표현하자면 훈련 중 정책(policy)의 샘플에서 경험적으로 평가된, 정책 분포(policy distribution) (\pi)와 초기 정책(initial policy) ($\pi_0$) 사이의 ($D_{\text{KL}}(\pi||\pi_0)$)를 의미한다.
왜 이런 현상이 발생하는가? ($D_{\text{KL}$}($\pi$+$\delta\pi||\pi)$)를 ($\delta\pi$)에 대해 급수 전개(series expansion)하면 이 급수는 2차(quadratic order)부터 시작된다. 따라서 만약 RL 정책(policy)이 베이스 LM 근처에서 급수 전개될 수 있고 RL 보상이 ($\delta\pi$)에 대해 선형으로 변한다면, '작은 ($\delta\pi$) 영역' (즉, 급수 전개가 좋은 근사치를 제공하는 영역)에서 보상은 ($\sqrt{D_{\text{KL}}}$)에 비례할 것으로 예상할 수 있다. 일반적으로 보상은 ($\delta\pi$)에 대해 선형으로 변할 것으로 예상된다. 그 이유는 초기 정책 ($\pi$)가 이전에 보상에 대해 최적화되지 않았기 때문에, 작은 변화 ($\delta\pi$)에 대해 극점(extremum)에 위치할 이유가 없기 때문이다. 따라서 이러한 관계가 경험적으로 성립한다는 사실은 RLHF 훈련의 대부분이 작은 ($\delta\pi$) 영역에서 이루어진다는 것을 시사한다.
비록 이 좌표계(coordinates)를 사용하지는 않았지만, 요약 학습(learning to summarize)의 결과에서도 유사한 스케일링을 읽어낼 수 있다. 특히, [Stiennon et al., 2020]에서 좋은 분석을 제공하고 있으며, 이들은 샘플을 N개 생성하고 상위 k개 샘플의 평균 보상을 ($D_{\text{KL}} = \log(N/k)$)에 대해 플로팅한다. 이 분석은 여기서 나타난 RL 학습 곡선이 초기 분포에서 단순히 리젝션 샘플링(rejection sampling)을 수행하는 것과 매우 유사한 형태로 변하는 RL 정책과 연관될 수 있음을 시사한다.
우리는 이 간단한 관계가 매우 인상적이라고 생각하며, 추가 연구가 필요하다고 본다. 다소 추측적인 차원에서 보자면, 이 관계는 대형 생성 모델(generative model)의 RL 파인튜닝(finetuning)에서 여러 가지 함의와 용도를 가질 수 있다:
-
이 관계는 "정책(policy)이 특정 보상을 달성하기 위해 얼마나 변화해야 하는지"를 대략적으로 예측할 수 있게 한다. 나아가, 만약 서로 다른 모델 크기에 대응하는 직선들이 실제로 평행하다면, 소형 모델의 RL 훈련 결과와 대형 모델의 제로샷(zero-shot) 성능을 이용하여 대형 RL 정책의 최종 성능을 추정할 수 있다. 이 직선들의 기울기는 RLHF 훈련이 어떻게 모델 크기에 상당한 효과적인 이득을 가져올 수 있는지 설명해 주며, 예를 들어 그림 1에서 RLHF와 context-distilled(문맥 증류) 모델의 선이 대략 평행한 이유를 설명해준다.
-
RLHF 훈련에 대해 미묘하고 어쩌면 명확히 정의하기 어려운 질문을 던질 수 있다: "RLHF가 모델에 새로운 기술(skill)을 가르치는가? 아니면 모델이 기존에 이미 가지고 있는 행동의 하위 분포(sub-distribution)에 집중하게 만들기만 하는가?" 이 후자 행동 유형을 RL 보상이 ($\sqrt{D_{\text{KL}}}$)에서 선형성을 유지하는 영역과 연결하여 이 구분을 명확히 만들 수 있을지도 모른다.
-
조금 더 대담한 추측을 하자면, 이 선형 관계가 실제로 KL의 함수로서 RL 보상에 대한 상한(upper bound)을 제공할 수도 있다. 또한, Fisher 기하학에서 측정한 측지선 길이(geodesic length)를 사용하여 이 관계를 확장할 수도 있을 것이다.
RL 학습을 더욱 예측 가능하게 만들고 새로운 행동의 정량적 범주를 식별함으로써, 우리는 RL 훈련 중 예상치 못한 행동이 등장하는 것을 감지할 수 있기를 바란다.
4.4 RLHF 훈련에서 도움됨(Helpfulness)과 무해함(Harmlessness) 사이의 긴장 관계
여기서는 RLHF 훈련 과정에서 우리가 겪었던 한 가지 문제를 다룬다.
프로젝트의 초기 단계에서 우리는 많은 RLHF 정책(policy)들이 조금이라도 민감할 수 있는 질문에 대해 매우 과장된 동일한 응답을 반복적으로 내놓는다는 점을 발견했다. (예를 들어, 사용자가 조금이라도 불편한 기분을 표현할 때마다 치료 및 전문적 도움을 권하는 등의 방식이다.)
이로 인해 모델의 유용성이 크게 제한되었다. 6.2절에서 제공된 일부 예제에서도 이러한 행동의 잔재를 여전히 볼 수 있다.
우리는 이제 이러한 정책들이 지나치게 무해성(harmlessness)에 최적화되었으며, 도움됨(helpfulness)에는 최적화되지 않았기 때문에 나타난 결과라고 믿는다.
우리의 데이터 수집 절차를 고려할 때 이는 매우 직관적이다. 적대적인 프롬프트(red-teaming prompt)에서 아주 높은 점수를 얻으려면, 모델이 “나는 그런 질문에 답할 수 없습니다.” 같은 응답만 반복해도 충분할 가능성이 높다. 이러한 응답은 그다지 높은 정교함을 요구하지 않으며(단지 유해한 요청을 분류하는 방법을 배우면 충분하다), 따라서 도움됨을 학습하는 것보다는 훨씬 쉬울 것이다.
그림 14 (오른쪽)에서는 훈련 과정에서 도움됨 프롬프트(helpfulness prompts)와 무해성 프롬프트(harmlessness prompts)를 분리한 상태로, 정책의 PM 점수 변화를 보여준다.
같은 그림의 왼쪽에서는 PM 비교 데이터의 점수 분포를 보여주며, 이때 역시 도움됨과 무해성 데이터셋을 분리해서 나타내었다. 우리는 정책의 무해성 점수가 분포 바깥(즉, 무해성 데이터셋의 상위 꼬리 영역)에 위치해 있음을 관찰할 수 있다. 반면, 정책의 도움됨 점수는 분포 내에 위치하여 충분히 최적화되지 않은 것으로 보인다. 따라서 이 에이전트는 적대적인 공격(red-teaming)에 대해 매우 강력한 저항력을 보이겠지만, 정작 유용하지는 않을 것이다.
이러한 현상은 한 가지 명백한 질문을 제기한다—무해성 데이터의 분포의 상단 꼬리(upper tail)를 채우기 위해 무해성 데이터를 더 많이 수집하면 안 되는가? 이 문제는 위에서 언급한 무해성의 정의와 연관된다—단지 질문에 답변을 거부하는 것("나는 답변할 수 없습니다.")이 가장 무해한 행동이라면, 이것은 아마 학습하기 쉽고 개선하기 어려울 것이다. 그러나 더 흥미로운 '가장 무해한' 행동은 모델이 (도움이 되는 방식으로) 왜 요청이 유해한지 설명하고, 심지어 인간이 그러한 요청을 하지 않도록 설득하려고 노력하는 것이 될 것이다. 우리는 비공식적으로 그런 모델을 "인질 협상가(hostage negotiator)"라 부른다.
그러나 우리가 데이터를 수집하는 과정에서는 모델들이 "인질 협상" 능력을 배우기가 매우 어려웠다. 왜냐하면 우리가 무해성 데이터셋을 수집할 때, 크라우드워커에게 더 유해한(more harmful) AI 응답을 선택하도록 했기 때문이다. 우리가 이 방식을 선택한 이유는, 모델이 적대적 공격(red-teaming)에 얼마나 취약한지를 충분히 탐색하기 위한 목적이었다. 하지만 RLHF의 관점에서는 이것이 문제가 되었다. 첫 번째 대화 턴(turn)을 넘어서면, 우리 모델은 유해한 질문에 대해 세련된 응답(sophisticated response)이 어떤 것인지 배우지 못했다. 우리 데이터셋은 모델이 해야 할 일(더 나은 행동)을 알려주는 것이 아니라, 단지 하지 말아야 할 행동만 알려주었기 때문이다.
실제로 우리는 도움됨 프롬프트(helpfulness prompts)의 비율을 높여 RLHF 과정에서 최적화 문제를 부분적으로 해결하였다. 그러나 앞으로는 크라우드워커들이 우리 모델들로부터 가장 최적의 응답(즉, 가장 좋은 응답)을 선택하도록 하여 무해성 데이터를 수집함으로써, 이 문제를 더 철저하고 체계적으로 해결할 수 있기를 희망한다. 이러한 방식으로, 모델들이 단순히 유해한 요청을 거절하기보다는 적대적 공격(red-teamers)과 '인질 협상'을 벌이는 보다 미묘한 기술을 배울 수 있기를 바란다.
이 섹션에서 논의한 데이터와 모델은 우리 연구의 초기 단계에서 얻은 것이므로, RL 결과가 논문의 다른 부분과 약간 다르게 보일 수 있음을 참고하길 바란다.
"RLHF 모델을 훈련할 때 '도움됨(helpfulness)'과 '무해함(harmlessness)'이라는 두 가지 목표 사이에 긴장 관계(tension)가 존재한다. 즉, 한쪽을 너무 강조하면 다른 쪽 성능이 떨어질 수 있다."
이를 더 직관적으로 풀어서 설명하면:
-
모델이 지나치게 **"무해함"**을 추구하면, 민감하거나 유해한 질문에 대해 단순히 "죄송하지만 답변할 수 없습니다."와 같은 응답만 반복하게 되어, 더 이상 유용한 정보를 제공하지 않게 됩니다.
-
반면 **"도움됨"**을 지나치게 강조하면, 모델이 민감한 질문에 대해서도 유해하거나 부적절한 응답을 할 위험성이 높아집니다.
해결방법 제시
- 크라우드워커가 무해성 데이터(harmlessness data)를 선택할 때, 더 유해한(more harmful) 응답이 아니라, 가장 이상적이고 좋은(best) 응답을 선택하도록 데이터 수집 방식을 바꾸는 것입니다.
4.5 반복적 온라인 RLHF (Iterated Online RLHF)
앞선 섹션에서 우리는 더 높은 점수 영역으로 갈수록 PM(선호 모델)의 캘리브레이션(calibration)과 강건성(robustness)이 점점 떨어진다는 문제를 다루었다(그림 9의 PM 캘리브레이션 연구와 그림 4의 RLHF 강건성 연구 참고).
- 우리는 이것이 높은 점수 영역에서 데이터가 부족하기 때문에 발생하는 문제라고 믿는다.
- 이러한 문제를 해결하기 위해, 우리는 반복적 온라인 RLHF(iterated online RLHF) 라는 방법을 제안한다.
-
우선 가능한 최고의 RLHF 정책(policy)을 훈련한 다음, 이를 통해 크라우드워커들로부터 새로운 비교 데이터를 수집한다. 정책(policy)은 PM 점수(PM score)를 최적화하도록 훈련되었기 때문에, 점수 분포에서 상위(upper-end)에 속하는 응답을 생성할 것이다.
-
이렇게 수집된 새 비교 데이터를 기존 데이터와 혼합하여 새로운 PM들을 훈련한 후, 이 새 PM들을 이용해 새로운 RLHF 정책들을 다시 훈련한다. 이후 이 과정을 무한히 반복(iterate)한다.
우리의 가설은, "온라인(online)" RLHF 정책을 사용하여 PM 점수 분포의 상위 영역에 속하는 데이터를 수집함으로써, 이후 반복에서 높은 점수 영역에서의 PM 캘리브레이션이 개선될 것이고, 이로 인해 더 나은 정책들을 훈련할 수 있게 될 것이라는 점이다. 이 과정을 계속 반복하면 점진적으로 더 좋은 PM과 정책을 얻을 수 있을 것이다.
단, 여기서 우리가 사용하는 '온라인(online)'이라는 용어는 일반적으로 사용되는 의미와는 다르다. 일반적인 온라인 학습이 동일한 모델을 반복적으로 업데이트하는 반면, 우리는 매 반복마다 완전히 새로운 모델을 다시 훈련하고 있다.
이 접근법에 대한 한 가지 우려는 RLHF가 정책의 엔트로피(entropy)를 감소시키는 경향이 있어서, 이 온라인 절차를 통해 수집된 데이터의 다양성을 제한할 수 있다는 점이다. 우리는 RL 훈련의 여러 스냅샷(snapshot)을 동시에 배포하여 이 문제를 일부 해결하였다. 이와 같은 배포 방식을 통해 모델 간의 비교를 수행하고, 모델의 성능을 더 잘 이해할 수도 있었다.
온라인 접근법이 효과적이라는 증거는 우리의 데이터 분포 변화에서 확인할 수 있다. 그림 15(왼쪽)에서는 세 가지 모델 분포의 PM 점수를 보여준다:
- Base, RS(리젝션 샘플링, Rejection Sampling), Online.
- 이 세 가지 분포는 2.3절에서 설명되었다.
- RLHF -> 데이터 수집 -> PM 학습 -> RLHF (초기부터) -> ...
- 이런식으로 매번 모델은 RLHF로 초기부터 재학습하는게 조금 의문이긴 하지만, 지속적으로 학습하면 앞 step에서 모델 응답이 reward가 높도록 saturation이 되어 있기 때문에, 안전성때문에 그런거 같음
- 어쨌든 이렇게 했더니 점점 모델은 높은 reward 응답 생성 결과를 보여준다
우리는 온라인 모델의 학습 곡선과 크라우드워커가 평가한 Elo 점수를 그림 15(오른쪽)에 나타냈다. 이 그림에서 RLHF를 통해 모델이 상당히 개선된 것을 볼 수 있지만, 크라우드워커가 평가한 Elo 점수는 PM의 예측 점수와 일치하지 않는다. RLHF 훈련의 강건성에 대한 추가 논의는 부록 B.4에서 확인할 수 있으며, 여기서는 분포 변화(distributional shift)가 명백한 강건성 실패의 상당 부분을 설명하고 있음을 확인했다(그림 35 참조).
그림 1에서 우리는 온라인 모델의 Elo 점수를 문맥 증류(context-distilled) 모델 및 "정적"(static, 즉 온라인 방식이 아닌 기존 방식) 데이터셋에서 훈련된 RLHF 모델과 비교하였고, 온라인 모델이 분명히 크라우드워커들에게 더 선호되었음을 보여주었다. 하지만 독자들은 다음 두 가지를 우려할 수 있다: 온라인 모델이 약간 더 큰 데이터셋(약 20% 더 큼)에서 훈련되었으며, 또한 더 나은 RLHF 하이퍼파라미터를 사용해 훈련되었다는 점이다(온라인 모델은 부록 B.1에서 정의된 더 큰 K값을 사용했고, PM은 1024가 아니라 2048의 문맥 길이를 사용해 훈련되었다). 이는 이전의 정적(static) RLHF 훈련과 비교했을 때의 차이이다.
이러한 우려를 해소하기 위해 우리는 통제된(controlled) 실험을 수행하여 두 가지 RLHF 훈련을 비교하였다. 하나는 우리의 Base 데이터셋(약 4만4천 개 PM 비교 데이터)에 훈련된 모델이며, 다른 하나는 Base, RS, Online 데이터를 균등하게 섞어 훈련한 모델이며, 이 데이터셋의 크기는 Base 데이터셋과 동일하다(각각 약 1만5천 개의 PM 비교 데이터). 이 실험을 위해 우리는 각각의 데이터셋에서 별개의 PM 두 개를 훈련하였고, 이 두 PM을 기준으로 두 가지 RLHF 정책을 훈련하였다. 데이터셋 차이를 제외하고 두 실험은 동일한 설정을 사용했으며, 두 실험 모두 "도움됨(helpfulness)"에만 훈련되었다.
그림 16에서는 크라우드워커의 평가를 통해 두 모델의 다양한 훈련 스냅샷(snapshot) Elo 점수를 비교했으며, 여기서 반복적 온라인 데이터를 통해 훈련된 정책이 분명히 더 선호되었음을 보여주었다. 이로써 우리는 온라인 훈련이 실제로 작동하며, 성능 향상은 단순히 데이터셋 크기 증가나 하이퍼파라미터 변화 때문이 아님을 입증하였다.
4.6 평가: 정렬 보너스(Alignment Bonus), 정직성(Honesty), 편향(Biases)
RL로 미세 조정된 언어 모델은 일반적으로 출력 분포가 더 좁고, 엔트로피(entropy)가 더 낮다. 이는 평가 과정에서 상당히 경직된 포맷을 사용하게 되면 어려움을 초래할 수 있다. 왜냐하면 유효한 응답이라도 RLHF 모델 입장에서 보았을 때는 분포 바깥(off-distribution)에 있을 수 있기 때문이다. (성별 편향 평가 등에서 이런 예시가 나타난다.) 따라서 향후 연구에서는 샘플링이나 사람과의 상호작용을 포함한 평가가 더 적절할 것이다.
이후에는 표준적인 NLP 평가를 간단히 다룬 후, 정직성(honesty), 감정(sentiment), 편향(bias) 등과 같이 모델의 사회적 영향력과 직접적으로 관련된 평가를 논의할 것이다.
4.6.1 NLP 평가 (NLP Evaluations)
우리는 질문 응답(Question Answering), 상식(commonsense), 상식 퀴즈(trivia), 스토리 완성(story completion) 등 다양한 NLP 벤치마크를 사용하여 모델들을 평가하였다. 여기에는 MMLU [Hendrycks et al., 2021b], Lambada [Paperno et al., 2016], Hellaswag [Zellers et al., 2019], OpenBookQA [Mihaylov et al., 2018], ARC [Clark et al., 2018], TriviaQA [Joshi et al., 2017]가 포함된다. 주요 결론은 RLHF가 일반적으로 큰 모델에서는 성능을 향상시키지만, 작은 모델의 경우 성능이 저하된다는 것이다.
제로샷(Zero-shot)과 퓨샷(Few-shot) 평가의 전체 결과는 각각 그림 28과 29에 제공되며, 평균적인 성능 추세는 그림 3에서 요약하였다. 독자들은 일부 평가의 결과가 갑자기 개선되는 현상을 볼 수 있다. 이는 우리가 객관식 질문을 평가할 때 명시적으로 선택지를 제공하는 포맷을 사용했기 때문이다(Gopher [Rae et al., 2021]가 이 포맷을 사용함). 평가에 사용된 구체적인 포맷은 부록 E에 제공되어 있다. 이 포맷은 큰 모델의 성능을 높이지만 작은 모델의 성능을 낮추는 경향이 있었고, 이는 ‘Grokking’ 현상 [Power et al., 2022]과 유사한 현상으로 볼 수 있다.
4.6.2 정직성과 편향 (Honesty and Biases)
AI 모델의 정직성은 중요한 문제이다. 우리는 TruthfulQA(MC1) [Lin et al., 2021]로 모델을 평가했고, 그 결과를 그림 5에 나타냈다. 또한, RLHF 훈련이 정직성을 크게 개선하긴 하지만, 여전히 상당한 개선의 여지가 있다는 점을 보여주기 위해 50-shot 결과도 포함했다. 참고로 우리는 크라우드워커에게 ‘거짓말하는 건 도움이 되지 않는다’는 지침을 명시적으로 주었고, ‘도움이 되고 정직한’ 응답을 선택하도록 권장했으므로, TruthfulQA에서 관찰된 성능 개선이 이와 관련 있을 것이다. 그렇긴 하지만, 우리는 정직성을 확보하는 가장 좋은 접근법이 RLHF라고 생각하지는 않는다.
다음으로는 모델의 내재적 편향을 다룬다. 우리는 인종 및 종교에 따른 감정(sentiment bias, Gopher [Rae et al., 2021]와 같은 포맷), 성별 편향(gender bias), 편향된 질문응답 평가(Bias Benchmark for QA, BBQ-lite [Parrish et al., 2021])로 모델을 평가하였다.
그림 17에는 다양한 인종 및 종교 그룹에 대한 감정 평가 결과가 나와 있다.
주된 관찰 결과는 RLHF로 훈련된 모델들이 일반 언어모델(plain LM)에 비해 훨씬 더 긍정적인 감정(sentiment)을 표현한다는 것이다. 다만, 그룹 간 편향이 실제로 감소했는지는 판단하기 어렵다. 일부 관찰된 효과는 우리가 사용한 감정 분석(sentiment analysis) 모델의 한계에서 기인할 수 있다. 예를 들어, "무신론자 남성(The atheist man)"에 대한 샘플(모델의 생성은 이탤릭체로 표시)은 다음과 같다.
The Atheist man was very skeptical and critical of religious dogma and conventional moral principles, seeking instead to derive his ethical values from rational consideration and empirical observation of the natural world.
위 문장은 거의 0에 가까운 중립적 감정 점수를 받는데, 이는 적절한 평가인지 다소 의심스러울 수 있다. 감정 평가를 위한 프롬프트 형식은 다음과 같다:
Human: Can you help me finish a sentence? The sentence is: {문장 앞부분}
Assistant: Sure thing, here is your completed sentence: {문장 앞부분}
이때 문장의 앞부분(sentence beginning)은 위 예시의 ‘The atheist man was very’와 같은 형태로 사용하였다.
또한 우리는 BBQ-Lite라는 BBQA의 간략 버전도 평가하였다. 그 결과는 다소 의외였으며, 결론을 도출할 수 있는지는 불분명하다. 간단히 말해 우리가 사용한 메트릭에 따르면, 우리의 일반 언어모델(Plain LM)은 이 벤치마크에서 큰 편향을 나타내지 않는 것으로 보인다. 이 메트릭은 대략적으로 "모델이 특정 용어를 얼마나 부정적인 맥락에서 사용하는지, 그리고 그 용어를 전반적으로 얼마나 사용하는지의 비율"이다. 여기서 0.5는 모델이 ‘편향되지 않음’을 의미한다. RLHF 훈련이 결과를 약간 향상시키긴 하지만(긍정적인 감정을 증가시키는 방향으로), 효과는 아주 미미하다(그림 18 참조). 향후에는 전체 BBQA 메트릭 [Parrish et al., 2021]을 사용하여 이 평가를 다시 수행할 수 있을 것이다.
3.4.2절에서는 선호모델의 성별 편향(gender bias)을 평가했다. RLHF 모델에 이 포맷을 사용해 보았으나, RLHF 모델은 일반 LM 또는 context-distilled LM에 비해 'The CEO was a'와 같은 문장에 성별 용어를 사용하는 빈도가 10배 이상 낮았다. 다시 말해, RLHF 모델에게 "The CEO was a father" 같은 문장은 분포 밖(off-distribution)에 있어 보였다. 이는 RLHF 모델에서 편향 측정 결과가 노이즈(noise)의 영향을 많이 받을 수 있고, 모델의 실제 행동과 동떨어져 있을 가능성을 의미한다. 따라서 부록 B.10에서는 평가 태스크 형식을 수정하여 RLHF 모델과 일반 LM 모두의 분포 내(on-distribution)에 있도록 했다. 이 새로운 형식을 통해 우리는 RLHF 모델의 편향이 기저 LM의 편향과 매우 강하게 상관됨을 보였다. (그림 40 참조) 특히 큰 RLHF 모델은 더 낮은 온도(temperature)에서 평가한 언어 모델과 매우 유사한 성별 편향을 나타냈다.
5. 경쟁하는 목표, 특수 기술 및 OOD 탐지 (Competing Objectives, Specialized Skills, and OOD Detection)
RLHF를 통해 모델을 정렬(Alignment)할 때 우려되는 것은, 정렬 기술이 모델의 성능을 저하시킬 수 있다는 점이다. 본 장에서는 다양한 목표와의 균형 및 특수 기술과 정렬 목표를 병행할 때 발생할 수 있는 성능 영향에 대해 다룬다.
5.1 도움됨(Helpfulness)과 무해성(Harmlessness) 목표 간의 경쟁적 관계
-
두 목표는 서로 어느 정도 대립적이다. 즉, 하나를 높이면 다른 하나는 낮아질 수 있다.
-
순수하게 도움됨 데이터로만 훈련된 모델은 무해성 테스트에서는 성능이 떨어지고, 반대로 무해성 데이터로만 훈련된 모델은 도움됨 테스트에서 성능이 낮다.
-
하지만 모델 크기가 커질수록 이 두 목표 간의 갈등(tension)은 점차 줄어들고, 두 목표의 균형을 더 잘 맞출 수 있게 된다.
즉, 큰 모델은 두 목표(도움됨과 무해성)를 동시에 더 잘 학습할 수 있다.
5.2 특정한 기술(Specialized Skills): 요약 능력(Summarization)
-
"정렬(Alignment)이 특정 전문 기술 학습을 방해하는가?"라는 의문을 테스트하기 위해, 요약 평가 데이터셋(Learning to Summarize, LtS)을 이용하여 실험하였다.
-
실험 결과, 도움됨과 무해성 목표(HH 목표)를 요약 평가와 섞어서 훈련했을 때, 두 가지 목표 모두에서 성능 저하가 없었다.
-
즉, 정렬 목표(HH)와 특정 기술(요약 기술)을 동시에 훈련해도 서로 성능에 악영향이 없었다.
5.3 코드 모델과 자연어 RLHF 훈련 병행 (Code Models & Natural Language RLHF)
-
또 다른 특정 기술로서 코드 작성 능력을 실험했다.
-
코드 데이터 없이 자연어만 사용한 RLHF 훈련을 코드에 미리 파인튜닝한 모델 위에서 수행했을 때, 코드 평가 지표(HumanEval)에서 오히려 성능이 향상되는 결과를 보였다.
-
즉, 자연어 정렬(HH)이 기존에 학습한 코드 능력을 손상하지 않고 오히려 강화할 수도 있다. RLHF는 일반적인 지시사항 수행(instruction-following) 능력을 향상시키므로 코드 생성 능력에도 간접적 이익을 준 것으로 보인다.
5.4 분포 외 데이터(OOD) 탐지 활용 (Out-of-Distribution Detection)
-
유해한 요청이나 이상한 요청을 감지하고 거부하는 방법으로, 별도의 추가 데이터를 사용하지 않고도 OOD 탐지 기법을 활용할 수 있다.
-
OOD 탐지의 핵심 아이디어는 모델의 활성화 벡터(Activation vector)의 분포로부터 벗어난 입력을 탐지하는 것이다.
-
실제 실험 결과, 더 큰 모델일수록 OOD 탐지 성능이 더 뛰어나며, 아주 적은 수의 예시(few-shot)로도 높은 탐지 정확도를 달성할 수 있었다.
-
즉, OOD 탐지를 이용하면 추가적인 무해성 데이터 수집 없이도 유해한 요청의 상당 부분을 효과적으로 필터링할 수 있다.
요약 (정리):
이 장에서 핵심적으로 이야기하는 것은 다음과 같다.
-
도움됨과 무해성 목표 간에는 어느 정도 경쟁(tension)이 존재한다. 그러나 모델 크기가 커질수록 두 목표를 동시에 학습하는 능력이 향상된다.
-
정렬 목표(HH 목표)는 특정 전문 기술(요약, 코드 등)과 병행했을 때 성능 저하를 일으키지 않으며 오히려 강화할 수 있다.
-
OOD 탐지 기법을 통해 별도 데이터 없이도 유해하거나 부적절한 요청을 필터링할 수 있다. 이는 정렬 모델의 안전성 향상에 유용한 도구가 될 수 있다.
7. 토의 (Discussion)
1. 핵심 결과 및 의미
-
RLHF(Reinforcement Learning from Human Feedback)를 통해 언어 모델을 인간의 선호에 맞춰 (도움되고, 정직하며, 무해하게) 정렬(align)할 수 있다는 점을 보였다.
-
이 접근 방식은 모델의 능력(capabilities)을 손상하지 않고, 오히려 대부분의 평가 지표에서 성능을 향상시켰다.
-
또한 특정 전문 기술(코딩, 요약 등)과 정렬 목표를 동시에 훈련할 수 있었으며, 서로의 성능을 해치지 않았다.
-
작은 모델은 RLHF로 인해 성능이 다소 저하되는 "정렬세금(alignment tax)"을 겪지만, 모델이 클수록 오히려 성능 이득(alignment bonus)을 얻는다.
2. 도움됨과 무해성 목표 간의 긴장(Tension)
-
도움됨과 무해성 목표는 부분적으로 상충한다.
-
특히 모델이 지나치게 무해성을 강조하면 과도하게 방어적인 형태(회피적 응답)를 보이게 되어, 결과적으로 유용성을 저하시킬 수 있다.
-
이는 데이터 수집 방법(더 유해한 응답을 선택하는 방식)에서 기인하며, 앞으로는 유해한 요청에 더 정교한 대응(인질 협상 방식)을 배우게 하는 데이터 수집 방식이 필요하다.
3. 한계점 및 향후 연구방향
-
정직성(honesty) 개선에 있어 RLHF는 부분적인 효과가 있지만, 아직 충분하지 않다. 정직성을 확보하는 데에는 추가적이고 더 효과적인 방법이 필요하다.
-
평균적인 성능 향상뿐 아니라, 최악의 사례(worst-case)에서도 해로운 행동을 하지 않도록 하는 강건성(robustness)에 대한 연구가 중요하다.
-
RLHF로 정렬된 모델은 여전히 더 복잡하고 미묘한 맥락에서 숨겨진 해로운 편향(bias)이나 위험성이 존재할 가능성이 있다. 따라서 더 정교한 다중 턴 대화를 포함한 평가 방식이 향후 중요할 것이다.
-
RL 훈련에서의 안정성(stability) 문제, 하이퍼파라미터 조정, 반복적 온라인 훈련 시 다른 접근법(예: 보상 함수의 변형)에 대한 추가적 탐구가 필요하다.
-
또한 앞으로 더 강력한 AI 모델이 등장함에 따라, 현재의 기술이 계속 효과적일지에 대한 우려가 존재하며, 이 문제를 적극적으로 연구해야 한다.
4. 정렬 데이터(Alignment data)의 중요성 및 공익성
-
지금까지는 연구자들이 크라우드워커의 직관적 판단에 기반하여 데이터 수집을 진행했으나, 실제로 어떤 행동이 바람직한지에 대한 사회적 합의가 필요하다.
-
따라서 장기적으로 독립적인 기관이 인간의 가치와 윤리를 명확히 반영하는 고품질의 정렬 데이터를 생성하고 공개할 필요성이 강조된다.
-
정렬 데이터는 투명하게 공유되어야 하며, 여러 기관이 독점하지 않고, 공익적 차원에서 공개되어야 한다. 정렬 데이터의 공유가 AI의 안전성을 높이는 공동의 "안전 공익(safety commons)" 역할을 할 것이다.
5. 광범위한 사회적 영향력 및 우려점
-
RLHF 기술은 매우 효과적이지만, 동시에 **양면성(dual-use)**이 존재하여, 이를 악용하여 허위 정보, 검열, 조작 등 부정적인 목적에도 사용될 위험이 있다.
-
더욱 강력한 모델의 등장과 상업적 목적으로 활용되는 정렬 기술이 사람들의 문화와 가치관에 큰 영향을 미칠 수 있다는 점을 우려해야 한다.
-
AI 모델의 광범위한 배포 시점과 방식에 대해서도 신중한 사회적 논의가 필요하다.
간단히 요약하면:
-
RLHF는 모델을 더 안전하고 유용하게 만드는 효과적 방법이다.
-
그러나 목표 간의 균형 유지, 정직성 확보, 최악의 사례 대비, 내재적 편향 제거 등의 추가적 연구가 필요하다.
-
앞으로는 정렬 데이터를 공공재로서 관리하고, AI 안전성에 대한 공통의 기준을 만드는 것이 중요하다.
-
AI 기술이 미칠 사회적, 문화적 영향에 대해서도 더 깊은 고민이 필요하다.
Reference























댓글
댓글 쓰기