NL-302, Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Anthropic 2022
Abstract 인간 피드백을 통한 강화학습으로 유용하고 무해한(Helpful & Harmless) 어시스턴트 훈련하기 이 논문에서는 언어 모델을 인간 선호도 모델링(preference modeling) 및 인간 피드백 기반 강화학습(RLHF)을 이용해 유용하고 무해한 어시스턴트로 미세 조정(fine-tune)하는 방법을 제안한다. 이 "정렬(alignment)" 훈련은 거의 모든 NLP 평가 지표에서 성능을 향상시키고, 파이썬 코딩 및 요약과 같은 특화된 기술 훈련과도 완벽하게 호환된다. 저자들은 인간 피드백 데이터를 주간 단위로 지속적으로 수집하여 선호 모델과 RL 정책을 온라인으로 업데이트하는 반복적(iterated) 온라인 학습 방식을 탐구함으로써, 데이터셋과 모델을 효율적으로 개선하였다. 마지막으로, RLHF 훈련의 견고성(robustness)을 조사하여, RL 보상과 초기화된 정책과의 KL 발산(KL divergence)의 제곱근 사이에 대략적인 선형 관계가 있음을 발견하였다. 주요 결과와 함께, 캘리브레이션(calibration), 목적 간의 경쟁(competing objectives), OOD 탐지(out-of-distribution detection)의 활용에 대한 부가적 분석을 수행하고, 모델과 인간 작가 간의 비교, 최근의 관련 연구에서 사용된 프롬프트를 이용한 모델 샘플들을 제시한다. 1 서론 우리는 유용하고, 정직하며, 무해한(harmless) 인공지능 에이전트를 훈련하기 위한 기법들을 개발하고자 한다 [Askell et al., 2021]. 이 논문에서 우리는 인간 선호도 데이터를 수집하고, 선호도 모델링(Preference Modeling, PM)과 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)을 적용하여 상대적으로 유용하고 무해한(HH) 자연어 어시스턴트를 훈련할 수 있음을 보인다. 우리의 전체 훈련 프로세스는 그림 2에 요약되...