NL-302, Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Anthropic 2022

Abstract

인간 피드백을 통한 강화학습으로 유용하고 무해한(Helpful & Harmless) 어시스턴트 훈련하기

이 논문에서는 언어 모델을 인간 선호도 모델링(preference modeling) 및 인간 피드백 기반 강화학습(RLHF)을 이용해 유용하고 무해한 어시스턴트로 미세 조정(fine-tune)하는 방법을 제안한다. 

이 "정렬(alignment)" 훈련은 거의 모든 NLP 평가 지표에서 성능을 향상시키고, 파이썬 코딩 및 요약과 같은 특화된 기술 훈련과도 완벽하게 호환된다. 저자들은 인간 피드백 데이터를 주간 단위로 지속적으로 수집하여 선호 모델과 RL 정책을 온라인으로 업데이트하는 반복적(iterated) 온라인 학습 방식을 탐구함으로써, 데이터셋과 모델을 효율적으로 개선하였다. 마지막으로, RLHF 훈련의 견고성(robustness)을 조사하여, RL 보상과 초기화된 정책과의 KL 발산(KL divergence)의 제곱근 사이에 대략적인 선형 관계가 있음을 발견하였다. 주요 결과와 함께, 캘리브레이션(calibration), 목적 간의 경쟁(competing objectives), OOD 탐지(out-of-distribution detection)의 활용에 대한 부가적 분석을 수행하고, 모델과 인간 작가 간의 비교, 최근의 관련 연구에서 사용된 프롬프트를 이용한 모델 샘플들을 제시한다.

1 서론

우리는 유용하고, 정직하며, 무해한(harmless) 인공지능 에이전트를 훈련하기 위한 기법들을 개발하고자 한다 [Askell et al., 2021]. 이 논문에서 우리는 인간 선호도 데이터를 수집하고, 선호도 모델링(Preference Modeling, PM)과 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)을 적용하여 상대적으로 유용하고 무해한(HH) 자연어 어시스턴트를 훈련할 수 있음을 보인다. 

우리의 전체 훈련 프로세스는 그림 2에 요약되어 있다.

우리의 목표는 ‘유용함’과 ‘무해함’의 정의를 규정하거나 처방하는 것이 아니라, 우리가 개발한 훈련 기법의 효율성을 평가하는 것이므로, 대부분의 경우 우리는 크라우드워커(crowdworkers)들이 이러한 개념을 스스로 해석하도록 한다. 

우리는 유용성과 무해성을 별도의 주제로 다루며, 각각에 대한 인간 선호 데이터를 별도로 수집한다. 

  • 유용성(helpfulness)에 대해서는 크라우드워커들이 우리의 모델에게 질문에 답하거나 문서를 작성하거나 수정하고, 계획이나 결정을 논의하는 등의 순수한 텍스트 기반 작업에서 도움을 요청하도록 한다. 
  • 무해성(harmlessness)에 대해서는, 모델로부터 해로운 응답을 유도할 목적으로 ‘레드팀(red team)’ 역할을 수행하도록 요청한다. 이는 예컨대 은행 강도를 계획하는 것과 같은 해로운 목표를 수행하거나, AI로 하여금 유해한(toxic) 언어를 사용하게 하는 등이다. 

크라우드워커들은 AI 어시스턴트와의 대화에서 각 단계마다 두 가지 가능한 응답을 제시받는다. 

  • 유용성 평가에서는 크라우드워커들이 두 응답 중 더 유용하고 정직한(즉 더 나은) 응답을 선택하도록 지시받는다. 
  • 반면 레드팀 작업에서는 더 해로운(즉 더 나쁜) 응답을 선택하도록 지시받는다. 
  • 이러한 대화들과 표현된 인간의 선호도는 우리의 데이터셋을 구성한다.
모델을 유용함과 무해함을 증가시키게 학습하도록, 학습 데이터를 크라우드워커를 통해 모은다

  • 유용성에서는 크라우드워커가 받은 두개의 응답중 더 유용한 응답을 선택하게함
  • 무해성에서는, 레드팀은 의도적으로 나쁜 응답을 요구하고, 더 나쁜 응답을 선택하도록 함
  • 모델이 "유용성"에만 집중하면 해로울 수 있는 요청에도 유용한 정보를 제공할 위험이 있기 때문입니다.

유용성과 무해성은 종종 서로 상충하는 목표가 될 수 있다. 

  • 해로움을 피하는 데 지나치게 초점을 맞추면 실제 인간의 요구를 해결하지 못하는 ‘안전’한 응답으로 이어질 수 있다. 
  • 반대로 유용함에 지나치게 초점을 맞추면 인간이 해를 입히거나 유해한 콘텐츠를 생성하도록 도울 수 있다. 
  • 우리는 이를 정량적으로 입증하며, 특정 품질 중 하나만 주로 평가하도록 훈련된 선호 모델은 다른 품질에 대해 매우 낮은 성능(무작위 추측보다도 훨씬 못한 성능)을 보인다는 것을 보인다. 
  • 하나만 고려해서 모델을 학습하면 다른 한쪽에 대한 큰 단점이 생긴다는 듯

다행히도, 두 데이터셋을 혼합하여 훈련한 선호 모델은 적절한 상황에서는 유용하게 행동하면서, 해로운 요청을 정중히 거부하도록 독려하는 올바른 교훈을 학습할 수 있음을 발견했다. 

  • 이러한 선호 모델을 활용하여, 우리는 강화학습을 통해 유용하고 무해한 어시스턴트를 훈련하고, 선호 모델의 점수를 보상으로 사용한다. 
  • 우리는 선호 모델의 성능과 RLHF로 훈련된 모델의 성능 특성을 모두 평가한다. 
위처럼 수집한 preference 데이터로 2개?의 리워드 모델을 학습한거 같고, 이 리워드 모델로 모델을 RLHF 식으로 학습시켰다는거 같음

그림 1에서 보듯이, 오직 유용성만을 목적으로 RLHF를 훈련한 모델은 레드팀(red team) 공격에 훨씬 취약한 반면, 유용성과 무해성을 함께 훈련한 모델은 매우 유용하면서도 훨씬 덜 해롭다.

  • 그림에서 online helpful RLHF는 유용성만으로 계속 데이터를 받아가면서 (online) 학습한 모델인데, 이게 Helpfulness 점수가 가장 높지만, Harmlessness 점수가 낮다는 것을 보여줌
  • 따라서 onine HH RLHF 인 두 항목에 대해 같이 학습하면 균형잡힌 성능을 보여준다는 것

정렬(alignment) 훈련에 관해 자주 제기되는 의문 중 하나는, 정렬이 AI의 성능을 저하시킬 것인가 하는 것이다. 우리는 RLHF를 대규모 언어 모델에 적용할 경우, 거의 모든 평가 항목에서 원래의 생성적 모델(generative counterparts)보다 RLHF로 훈련된 모델이 더 우수한 성능을 보인다는 것을 발견했다. 

(그림 3 참조) 우리는 또한 특화된 기술(specialized skills)을 정렬 훈련과 혼합해도 정렬이나 성능 측면에서 손해를 보지 않는다고 주장한다. 

실제적으로 정렬된 모델들은 원래의 생성적 모델보다 사용자 친화적이고 배포하기 쉬운 경우가 많으므로, 정렬(alignment)을 위해 미세 조정(finetune)하지 않은 모델을 배포할 이유는 거의 없다고 본다.

이렇게 학습한게 굳이 성능을 떨어드리지 않는 것을 보여줌

1.1 연구의 주요 기여 (Contributions)

대화 기반의 선호도 데이터셋 구축

  • 주로 52B 크기의 다양한 언어 모델을 이용하여 각각 유용성(helpfulness) 및 무해성(harmlessness, red-teaming) 데이터셋을 별도로 구축하였다(상세 내용은 섹션 2 참조). 크라우드워커들은 개방형(open-ended) 대화를 진행하면서 모델에게 도움을 요청하거나, 지시사항을 제공하거나, 해로운 응답을 유도하기 위해 레드팀(red-teaming)을 수행하였다. 크라우드워커들은 각 대화 단계마다 더 유용한 응답 또는 더 해로운 응답을 선택하도록 요청받았다.

  • 초기 모델로부터 한 번, 이후 초기 선호 모델(preference model)을 활용하여 샘플을 필터링하는 rejection sampling을 이용해 또 한 번, 마지막으로 온라인 인간 피드백 기반 강화학습(online RLHF)을 통해 주기적으로(약 주간 단위) 업데이트된 모델에서 데이터를 얻어 총 3단계로 데이터를 수집했다(상세 내용은 섹션 2.3 참조).

응답을 생성할 모델을 초기모델, 이후 선호모델 등으로 변화해가면서 한거 같은데? 자세한건 뒤에 봐야할듯

인간의 가치와 정렬(alignment)함으로써 얻는 다양한 이점 및 성능 비용이 거의 없음을 보임

  • 작은 모델들은 RLHF 훈련 이후 다양한 평가 항목에서 성능이 떨어지는 심각한 "정렬 비용(alignment tax)"을 경험한다. 그러나 우리는 더 큰 모델(13B와 52B)의 RLHF 훈련이 zero-shot NLP 평가에서 오히려 성능을 향상시키고, few-shot 평가에서는 성능 저하가 없음을 발견했다.

  • HH(유용성과 무해성)를 위한 자연어 기반의 RLHF 훈련은 먼저 코드(code)에 대해 미세 조정(finetune)된 모델에도 적용할 수 있으며, 실제 평가에서도 프로그래밍 능력을 향상시킨다(아마도 일반적인 instruction-following 능력을 강화함으로써 가능해졌을 것이라 판단된다). 또한 HH를 위한 선호 모델 훈련을 특정 기술인 요약(summarization)과 혼합해도 요약 및 HH 성능 모두에서 손실이 없음을 확인하였다. 따라서 정렬(alignment) 훈련을 보다 구체적이고 가치 있는 기술과 결합하지 않을 이유는 전혀 없다.

이 부분은 매우 신기한 거 같기도한데,, 여기서 말한대로 지시형이 더 잘 학습되는 방향이라 그런거 같기도
  • 유용성과 무해성 사이에 명백한 긴장 관계가 존재하며, 이는 선호 모델링(preference modeling) 및 RLHF 훈련 정책 수준에서 측정할 수 있다(그림 1 참조). 그러나 모델의 크기가 증가함에 따라, 선호 모델은 두 분포(유용성 및 무해성)에 동시에 더 나은 성능을 보이고, 유용성과 무해성 훈련 데이터의 상대적 비율에 훨씬 더 견고해진다(robust).

  • 또한 우리는 OOD(out-of-distribution, 분포 외) 탐지 기법을 활용하여, 기이하거나 해로운 요청의 대부분을 극히 적은 수의 유해한 예시를 사용하거나 아예 사용하지 않고도 거부할 수 있음을 보였다.

확장성(Scaling), RLHF의 견고성(Robustness), 반복적(iterated) "온라인" 훈련 탐구

  • 우리는 선호 모델 정확도가 모델 크기와 데이터셋 크기에 따라 어떻게 달라지는지를 연구하여, 로그-선형(log-linear)의 관계를 발견하였으며, 일부 예외적이고 독특한 현상도 발견하였다.

  • RLHF의 견고성(robustness)에 대한 실험을 수행하였다. 구체적으로 데이터셋을 절반으로 나누고, 각 절반에 별도의 선호 모델을 훈련한 후, 한쪽 선호 모델에 대해 RL 정책을 훈련하면서 다른 쪽 선호 모델로 평가하는 방식으로 연구했다. 이 실험 결과, 더 큰 선호 모델일수록 작은 모델보다 더욱 견고하며, RLHF 훈련이 진행될수록 과적합(overfitting)이 증가한다는 점을 확인하였다.

  • RLHF 훈련 과정 대부분에서, ($\sqrt{D_{KL}(\pi||\pi_0)}$)과 보상(reward) 사이에 근사적으로 선형 관계가 존재함을 발견하였다. 여기서 ($\pi$)와 ($\pi_0$)는 각각 현재 정책(policy)과 초기 정책(initial policy)을 나타낸다. 우리는 이러한 관계가 어떻게 발생하는지 설명하고, 가능한 응용과 향후 연구 방향에 대해 논의하였다.

  • 만약 현재의 정책 π\pi가 초기의 정책 π0\pi_0과 거의 차이가 없다면, 즉 ππ0\pi \approx \pi_0이라면, KL divergence는 작아지고, 위의 선형 관계에 따라 reward도 낮아집니다.
    → 즉, 모델이 초기 상태와 별로 다르지 않으면 얻을 수 있는 보상도 적다는 뜻입니다.

  • 반대로, 현재 정책 π\pi가 초기 정책 π0\pi_0으로부터 많이 변화했다면, KL divergence가 커지고, 그에 따라 reward도 커집니다.
    → 다시 말해, 모델이 초기에 비해 더 많이 바뀌고 학습될수록, 얻는 보상도 함께 증가한다는 뜻입니다.

  • 주간 단위로 선호 모델과 RLHF 정책을 업데이트한 뒤, 새로운 RLHF 모델을 다시 크라우드워커와의 상호작용에 배치하는 "반복적 온라인 훈련"을 탐구했다. 이 방법을 통해 크라우드워커 평가 결과 모델의 성능이 현저히 개선되었으며, 자체 선호 모델이 판단한 데이터셋 품질 역시 크게 향상되어 상위 성능 분포를 채웠다.

  • 혼란 요인을 제거하고 결론을 보강하기 위해, 데이터셋 크기 및 기타 하이퍼파라미터를 고정한 채 추가적인 통제 실험을 수행했다(그림 16 참조).

1.2 평가와 측정 지표 요약

NLP 및 코드(Code) 평가

  • 우리는 다음과 같은 평가 벤치마크를 통해 모델을 평가했다:

    • MMLU [Hendrycks et al., 2021b]

    • Lambada [Paperno et al., 2016]

    • HellaSwag [Zellers et al., 2019]

    • OpenBookQA [Mihaylov et al., 2018]

    • ARC [Clark et al., 2018]

    • TriviaQA [Joshi et al., 2017]

    각 평가별 전체 결과는 그림 28과 29를 참고할 수 있으며, 평균 결과는 그림 3에서 확인할 수 있다. TriviaQA를 제외한 모든 경우에서 12B 및 52B의 RLHF로 훈련된 모델이 기본 언어 모델(plain LMs)보다 더 좋은 성능을 보였다. 별도의 실험으로 Python 코딩 모델을 자연어 RLHF로 추가 미세조정하고, codex HumanEval [Chen et al., 2021]에서 평가했으며, 결과는 그림 21에서 볼 수 있다.

    • plain LM이 아닌, code finetuning 모델에 이어서 학습해도 성능이 좋아진다는 것을 보여줌
    • 엄밀히는 general instruction tuning 모델에 이어서 학습했을때 어떻게 되는지를 봐야할거 같은데
  • 또한 우리는 HH(helpful & harmless)를 위한 선호 모델(PM)의 학습과 특화된 기술인 요약(summarization) [Stiennon et al., 2020]의 훈련을 혼합하여 실험했고, 그 결과는 그림 20에 나와 있으며, 이러한 혼합 학습이 PM의 정확도(accuracy)에 부정적 영향을 미치지 않는다는 것을 확인했다.

정렬(Alignment)에 대한 고정 평가(Static Alignment Evaluations)

  • 우리는 이전에 개발한 HHH 평가(HHH Evaluations, helpful/honest/harmless 평가) [Askell et al., 2021]를 BIG-Bench에서 평가했고(그림 5 참조), 다음 평가들도 수행했다:

    • Bot Adversarial Dialogues [Xu et al., 2020]

    • 젠더 편향(gender bias) [Rae et al., 2021] (그림 12)

  • 또한 RLHF 모델은 다음 평가를 수행했다:

    • TruthfulQA [Lin et al., 2021] (그림 5)

    • BBQ-Lite [Parrish et al., 2021] (BIG-Bench 기반)

    • 젠더 편향(gender bias) (그림 40)

    • 인종 및 종교에 따른 감정(sentiment) 평가 [Rae et al., 2021] (그림 17).
      RLHF 훈련은 모든 그룹에 대한 감정을 향상시켰지만, 편향(bias)을 완전히 제거하지는 못했다.

인간 평가(Human Evaluations)

  • 우리는 크라우드워커들이 모델을 얼마나 선호하는지에 기반하여 Elo 점수를 계산하였다. 여기에는 컨텍스트 증류 모델(context-distilled models), 기본 RLHF 훈련 모델(base RLHF-trained models), 최종적으로 반복적 온라인 방식으로 훈련된 RLHF 모델(final online RLHF models)이 포함되었다(그림 1 참조).

  • 우리는 또한 온라인 모델이 훈련 중 보여주는 성능을 평가했고(그림 15 참조), 다양한 정도의 rejection sampling(거부 샘플링) 비교 평가(그림 36 참조), 반복적 온라인 훈련(iterated online training)에 대한 통제 실험을 수행했다(그림 16 참조).

  • 이외에도 우리는 전문적인 글 작가들을 고용하여 높은 품질의 유용하고 정직한 응답을 생성하는 어시스턴트와의 대화를 작성하도록 했고, 그 후 크라우드워커들에게 우리의 모델 응답과 전문 작가가 쓴 응답을 비교하도록 요청했다.
    그 결과 크라우드워커들은 우리의 온라인 HH 모델(online helpful & harmless RLHF model)이 전문 작가가 작성한 응답보다 약 57% 더 선호하는 것으로 나타났다.
    (다만, 이 결과는 실제 현실적 상황(real-world tasks)에서의 성능을 완벽히 대표하지는 않을 수 있으며, 평가가 adversarial(공격적)이지 않았기 때문에 신중히 해석해야 한다.)

샘플 (Samples)

  • 우리는 PALMS [Solaiman and Dennison, 2021]의 민감한 질문(sensitive questions) 전체와 InstructGPT [Ouyang et al., 2022] 및 LaMDA [Thoppilan et al., 2022] 논문에서 제공된 프롬프트(prompt)를 사용하여 생성한 모델 응답 샘플들을 부록(Appendix C)에 제시하였다.

  • 또한 인간 작가(human writers)와의 몇 가지 비교 샘플을 6.1절에 제시하며, 몇 개의 짧은 대화 예시는 6.3절에서 보여준다.

  • 응답 샘플 선택 과정에서 체리 피킹(cherry-picking, 의도적으로 좋은 결과만 골라서 보여주는 행위)의 문제를 완화하기 위해, 우리는 각 프롬프트(prompt)당 17개의 샘플을 생성한 뒤, 이 중에서 우리의 온라인 HH 선호 모델(online HH preference model)이 중간 수준(median)으로 평가한 샘플만 표시했다. (즉, 지나치게 우수하거나 열악한 샘플을 배제하고 평균적인 샘플을 보여줌으로써 보다 객관적 평가를 가능하게 하였다.)

온라인 HH 선호 모델 이라 함은, 크라우드워커로 모은 선호데이터로 학습한 reward model을 말하는 듯

1.3 관련 연구 (Related Work)

최근의 논문인 LaMDA[Thoppilan et al., 2022] 및 InstructGPT[Ouyang et al., 2022]는 본 연구와 특별히 유사하다. 두 연구 모두 대형 언어모델을 인간 데이터를 이용해 보다 유용하거나 정렬(aligned)하도록 훈련시켰다. 또한 두 연구는 우리가 사용한 52B 모델보다 다소 큰 언어모델을 사용했다.

LaMDA는 대형 언어모델을 미세조정하여 흥미롭고, 도움이 되며, 사실에 근거하고, 안전한 자연어 대화가 가능하도록 훈련하였다[Thoppilan et al., 2022]. 본 연구와 마찬가지로 그들은 긍정적인 상호작용과 안전성/무해성 개념을 모두 포함했다. 또한 정확성과 사실 근거성(groundedness)을 보장하기 위한 외부 정보를 활용하는 방식이 우리가 논의한 방법을 넘어서는 것으로, WebGPT 및 GopherCite[Nakano et al., 2021, Menick et al., 2022]와 더 유사하다. 그러나 LaMDA는 강화학습을 사용하는 대신 생성적(generative) 및 판별적(discriminative) 방식의 지도학습 기법을 혼합하여 사용했고, 데이터 수집 과정에서 비교가 아닌 절대적 평가(ratings)를 활용한다는 점에서 차이가 있다. 이들은 자신들의 방법이 능력(capabilities)에 대한 ‘정렬 세금(alignment tax)’을 부과하는지 여부는 탐구하지 않았다.

InstructGPT는 GPT-3 유형의 모델을 미세조정하여 도움(helpfulness)을 향상시켰다[Ouyang et al., 2022]. 본 연구와 마찬가지로 비교를 통해 표현된 인간의 선호를 사용하여 강화학습을 수행했다. 그러나 InstructGPT는 강화학습 이전에 지도학습 단계를 추가적으로 포함한 반면, 우리는 오로지 강화학습만으로 미세조정을 수행한다(컨텍스트 증류(context distillation)를 수행하지만, 이것은 단순한 프롬프팅(prompting)에 가깝다). 또한 본 연구와의 주된 차이점은 InstructGPT는 무해성 훈련을 포함하지 않고, 도움(helpfulness)과 무해성(harmlessness) 간의 긴장관계를 탐구하지 않았다. 또한 세부적으로 보면 그들의 접근법은 우리의 접근법과 차이가 있다. 예를 들어, InstructGPT는 6B 파라미터 이상의 선호 모델(preference model)을 훈련하지 않았으며, 평가 성능 저하를 피하기 위해 사전 훈련(pretraining)과 강화학습을 혼합했다.

우리의 연구는 InstructGPT 및 LaMDA와 달리 '온라인(online)' 훈련을 탐구했다. 즉, 보다 높은 품질의 데이터를 얻고 데이터 분포의 꼬리 부분을 보다 풍부하게 채우기 위해 크라우드워커와 상호작용하는 모델을 지속적으로 업데이트했다는 것이다. 또한 우리는 요약(summarization)과 코딩(coding)과 같은 전문화된 기술을 탐구하여, 정렬(alignment)이 모델의 능력을 제한하지 않고 달성 가능하다는 주장을 강화했다. 또한 우리는 도움(helpfulness)과 무해성(harmlessness) 간의 긴장관계를 명시적으로 연구했으며, 우리가 아는 한 이러한 주제는 이전에 다뤄지지 않았다. 마지막으로 우리는 스케일링(scaling)과 강화학습 동안의 견고성(robustness)을 훨씬 더 자세히 탐구했다. 이와 함께 우리의 절차(Figure 2 참조)는 실제로 다른 연구들에 비해 다소 간단하다. 우리는 필수적인 단계는 인간 피드백 데이터 수집, 선호 모델링, 그리고 인간 피드백 기반 강화학습(RLHF)이라고 생각한다.

다른 여러 최근 연구들은 데이터베이스에서 검색(retrieval)을 통해 진실성(truthfulness)의 측면을 다루는 데 집중하였다[Lewis et al., 2020, Guu et al., 2020, Borgeaud et al., 2021]. 혹은 인터넷 검색과 인간 피드백을 활용하여 진실성을 높인 WebGPT[Nakano et al., 2021] 및 GopherCite[Menick et al., 2022] 등의 연구들도 있다. 이러한 연구들은 흥미롭고 우리의 연구와 상호 보완적이다. 특히, 우리의 결과는 그들의 기법이 도움(helpfulness)과 무해성(harmlessness)을 위한 훈련과 매우 호환성이 높을 것임을 시사한다. 이러한 연구들은 명시적인 증거의 충실한 표현을 개선하지만, AI 시스템의 정직한 자기표현(honest self-representation)을 달성하기 위해서는 더 많은 연구가 필요할 것이다. 우리는 일반적으로 인간 피드백에 의존하지 않는 기법들이 이 문제에 적용될 수 있을 것이라고 기대하는데, 그 이유는 많은 진실의 출처들이 인간 판단에만 기반하지 않기 때문이다.

언어모델과 관련된 안전성 및 윤리적 이슈는 광범위하게 논의되었으며(e.g. [Henderson et al., 2017, Bender et al., 2021, Weidinger et al., 2021]), 독성(toxicity), 편향(bias), 그리고 개인 식별 정보의 유출 가능성 등의 문제들이 잘 알려져 있다. 모델이 점점 강력해짐에 따라 새롭고 놀라운 능력과 안전 이슈가 발생할 수 있다[Ganguli et al., 2022]. 이 밖에도 이러한 문제를 완화하는 방법에 대한 연구들(e.g. [Liu et al., 2021, Xu et al., 2020])과 윤리적 딜레마를 직접 평가하도록 모델을 훈련한 연구[Jiang et al., 2021]도 존재하며, 윤리 벤치마크에 대한 개선을 보이고 있다[Hendrycks et al., 2021a]. 보다 일반적인 AI 안전 연구 제안에는 [Amodei et al., 2016, Hendrycks et al., 2021c]가 포함된다. 우리가 논의한 강화학습의 견고성 실패 사례는 최근 [Pan et al., 2022]에서 다뤄진 '보상 해킹(reward hacking)' 사례로 간주될 수 있다. 또한 강화학습 정책(policy)이 다른 위험한 방식으로 분포 밖(out-of-distribution)의 일반화에 실패할 수 있다[Koch et al., 2021].

우리가 모델 크기에 따른 추세를 연구하는 것은 뉴럴 스케일링 법칙(neural scaling laws)에 의해 동기부여 되었다[Hestness et al., 2019, Rosenfeld et al., 2019, Kaplan et al., 2020]. 관련된 관찰로는 파라미터 수가 증가할수록 모델들이 더 효과적으로 미세조정되며[Hernandez et al., 2021], '파국적 망각(catastrophic forgetting)'에 덜 취약해진다는 점이 있다[Ramasesh et al., 2022]. 이 효과는 우리의 HH 훈련이 좋은 평가 성능 및 대형 모델의 특수 기술과 호환되는 이유를 설명하는 데 도움이 될 것으로 보인다.


























Reference

댓글