NL-302, Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Anthropic 2022

이미지
Abstract 인간 피드백을 통한 강화학습으로 유용하고 무해한(Helpful & Harmless) 어시스턴트 훈련하기 이 논문에서는 언어 모델을 인간 선호도 모델링(preference modeling) 및 인간 피드백 기반 강화학습(RLHF)을 이용해 유용하고 무해한 어시스턴트로 미세 조정(fine-tune)하는 방법을 제안한다.  이 "정렬(alignment)" 훈련은 거의 모든 NLP 평가 지표에서 성능을 향상시키고, 파이썬 코딩 및 요약과 같은 특화된 기술 훈련과도 완벽하게 호환된다. 저자들은 인간 피드백 데이터를 주간 단위로 지속적으로 수집하여 선호 모델과 RL 정책을 온라인으로 업데이트하는 반복적(iterated) 온라인 학습 방식을 탐구함으로써, 데이터셋과 모델을 효율적으로 개선하였다. 마지막으로, RLHF 훈련의 견고성(robustness)을 조사하여, RL 보상과 초기화된 정책과의 KL 발산(KL divergence)의 제곱근 사이에 대략적인 선형 관계가 있음을 발견하였다. 주요 결과와 함께, 캘리브레이션(calibration), 목적 간의 경쟁(competing objectives), OOD 탐지(out-of-distribution detection)의 활용에 대한 부가적 분석을 수행하고, 모델과 인간 작가 간의 비교, 최근의 관련 연구에서 사용된 프롬프트를 이용한 모델 샘플들을 제시한다. 1 서론 우리는 유용하고, 정직하며, 무해한(harmless) 인공지능 에이전트를 훈련하기 위한 기법들을 개발하고자 한다 [Askell et al., 2021]. 이 논문에서 우리는 인간 선호도 데이터를 수집하고, 선호도 모델링(Preference Modeling, PM)과 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)을 적용하여 상대적으로 유용하고 무해한(HH) 자연어 어시스턴트를 훈련할 수 있음을 보인다.   우리의 전체 훈련 프로세스는 그림 2에 요약되...

Audio-008, Moshi: a speech-text foundation model for real-time dialogue, Preprint 2024

이미지
◼ Comment https://naver.me/FK0Mj2zM 학습할때, TrTemp에 이전 스텝의 토큰들 임베딩이 더해져서 들어가서 zs을 출력하고,  이것이 TrDepth에 들어가서 word, speaker semantic, speaker acoustic, user semantic, user acoustic을 순차적으로 예측하도록 학습됨 Abstract 본 논문에서는 음성-텍스트 기반의 기초 모델이자 전이중(Full-Duplex) 음성 대화 프레임워크인 "Moshi"를 소개한다. 기존의 음성 대화 시스템은 일반적으로 독립적인 구성 요소들, 예를 들어 음성 활동 감지(VAD), 음성 인식(ASR), 텍스트 기반 대화 시스템, 텍스트 음성 합성(TTS) 등의 파이프라인을 기반으로 구축되어 있다.  이러한 프레임워크는 실제 대화의 경험을 충분히 재현할 수 없다. 우선, 복잡한 구조로 인해 상호작용 간에 수 초의 지연(latency)이 발생한다.  둘째, 텍스트가 대화의 중간 매개체로 사용되면서 감정이나 비언어적 음향과 같이 의미에 영향을 주는 비언어적 정보가 상실된다.  마지막으로 기존 시스템은 화자 교대(speaker turn)를 기준으로 세그먼트를 분할하여 발화 중첩(overlapping speech), 끼어들기(interruption), 맞장구(interjection) 등을 반영하지 못한다. 음성을 텍스트로 떨궈서 Llm을 쓰면 위와 같은 문제점이 있다는 것 Moshi는 음성 대화를 "음성-음성 생성(speech-to-speech generation)"이라는 형태로 접근하여 위의 문제들을 통합적으로 해결한다.  Moshi는 텍스트 언어 모델을 기반으로 신경 오디오 코덱(neural audio codec)의 잔차 양자화(residual quantizer) 토큰으로 음성을 생성하며, 자체 발화와 사용자 발화를 병렬 스트림으로 각각 모델링한다. 이를 통해 명시적인 화자 교대의 개념을 제거하고, 임의적인 대화 역동성...