NL-239, Fine-tuning Language Models for Factuality, ICLR 2024
◼ Comment
- 논문에서 보이고자 하는것은 명확하다
- LLM이 있을 때, 이의 factuality을 강화하도록 학습을 해보자는 것이다.
- 학습 데이터 생성
- 유명인물 전기, 의학적 도메인에서 question에 해당하는 응답을 llama로 샘플링한다
- 샘플링한 응답들의 사실성 점수를 측정한다
- 사실성 점수는 factscore을 이용하는 reference-based 방법과 llm만 이용하는 reference-free 방법이 있다.
- 두개 모두 응답을 atomic 단위로 나눠서 진행하는 것은 동일하다
- 어쨌든 이렇게 사실성 점수로 win-lose로 preference 데이터를 구성하여 DPO로 모델을 학습시키면 사실성 점수가 증가한다고 한다.
- 추가로 DPO가 아닌 그냥 RLHF로 학습해도 효과가 있다는 것 같고
- DoLA와 같은 디코딩전략과 결합하면 더 효과가 좋다는 거 같음
- 개인적으로는 reference-free 방법만으로도 효과가 있다는 것을 확장해볼 수 있지 않을까 생각한다
- 여기서는 llama 7B모델을 학습하는데 사용되는 reference-free 데이터를 만들때 GPT3.5을 사용했지만
- 여기서는 pretrained llm에 딱 이 부분만 학습하는 듯
- 자신만의 llm 을 사용해서 데이터만들고 적용해도 효과가 있지 않을까? 생각이 든다
- 즉 self-improve를 통해 사실성 응답비율을 높일 수 있을거 같고
- 이는 어떻게보면 자기가 알고있는 지식과 상충한 응답을 말하는 것을 줄이는 방법이다.
- 결과론적으로 기존의 llm학습과 생성 어딘가에서 이러한 말하는 법이 더 align 되야한다는 의미일 수도 있다.
ABSTRACT
대규모 사전 학습 언어 모델(LLM)의 유창성과 창의성은 이들을 전통적인 검색 엔진의 대체 수단으로 사용할 정도로 널리 퍼지게 만들었습니다. 하지만 언어 모델은 설득력 있지만 사실과 다르게 주장하는, 흔히 ‘환각(hallucinations)’이라고 불리는 오류를 범하기 쉽습니다. 이러한 오류는 의도치 않게 잘못된 정보를 퍼뜨리거나 오해를 지속적으로 강화할 수 있습니다. 게다가 모델 응답에 대한 수작업 사실 검증은 시간이 많이 소요되며, 이에 따른 인간의 사실성 라벨링은 비용이 많이 듭니다.
본 연구에서는 인간 라벨링 없이 언어 모델을 더 사실적으로 미세 조정하고, 이전 연구보다 더 개방적인 생성 환경을 목표로 합니다. 이를 위해 NLP의 두 가지 주요 혁신을 활용합니다.
- 첫째, 최근 여러 연구에서는 외부 지식 베이스와의 일관성을 측정하거나 대규모 모델의 신뢰 점수를 활용하여 개방형 텍스트의 사실성을 평가하는 방법을 제안했습니다.
- 둘째, Direct Preference Optimization(DPO) 알고리즘은 단순한 모방 학습을 넘어, 가능한 모델 응답에 대한 선호도 순위를 사용하여 언어 모델을 간단히 미세 조정할 수 있도록 합니다.
기존 검색 시스템 또는 새로운 검색 비의존적 접근 방식을 통해 자동으로 생성된 사실성 선호도 순위를 학습함으로써, Llama-2가 RLHF(보상 모델 학습)나 사실성을 목표로 하는 디코딩 전략에 비해 보류된 주제에서 생성된 주장의 사실성을 크게 개선할 수 있음을 보여줍니다. 7B 규모에서 Llama-2-Chat과 비교했을 때, 전기 생성과 의학 질문 응답 시 사실 오류율이 각각 53%와 50% 감소했습니다. 참고 구현은 https://github.com/kttian/llm_factuality_tuning에서 확인할 수 있습니다.
1 INTRODUCTION
대규모 언어 모델(LLM) 훈련의 최근 발전, 특히 인간 피드백을 활용한 강화 학습(RLHF)과 같은 응답 순위 학습 방법(Christiano et al., 2017; Ziegler et al., 2020; Ouyang et al., 2022)은 강력하고 매력적인 대화형 에이전트를 개발할 수 있게 했습니다. 최신 LLM은 방대한 데이터셋(Touvron et al., 2023a;b)에서 방대한 양의 지식을 사전 학습하고, 이를 바탕으로 다양한 지침을 따르거나 더 구체적인 작업을 수행하도록 추가로 미세 조정됩니다(Chung et al., 2022; Chen et al., 2021).
그러나 이러한 언어 모델이 다양한 데이터셋에 노출되었음에도 불구하고, 자신감 있게 잘못된 주장을 생성하는 경향이 있습니다. 최근 연구에 따르면 GPT-3.5(ChatGPT)는 특정 연구의 저자를 묻는 질문에 대해 잘못된 인용을 제공하는 경우가 더 많다고 보고되었습니다(Agrawal et al., 2023). 그럼에도 불구하고, 다른 연구에서는 간단한 질문-응답 환경에서 대규모 언어 모델이 체계적인 불확실성 지표를 나타내며, 이는 사실적으로 신뢰할 수 없는 진술을 식별할 수 있음을 보여줍니다(Kadavath et al., 2022; Tian et al., 2023). 이러한 결과는 언어 모델이 내부적으로 자신의 지식 한계를 나타낼 수 있음을 시사하며, 이를 바탕으로 "언어 모델이 이러한 내부 인식을 활용하도록 미세 조정하여 처음부터 잘못된 진술을 피할 수 있을까?"라는 질문을 제기합니다.
내가 생각했던 질문과 같은 이유에서부터 출발했군
사실적인 모델을 훈련하는 데 있어 주요 어려움 중 하나는 사실성을 적절히 포착하는 목표를 지정하는 것입니다. 예를 들어, 언어 모델 사전 학습에서 가장 일반적인 목표인 최대 우도(maximum likelihood)는 항상 사실적인 예측을 장려하지는 않습니다. 질문 "Yo-Yo Ma는 어디에서 태어났습니까?"를 고려해봅시다. 모델이 "잘 모르겠지만, 아마 파리?"라는 텍스트를 거의 확정적으로 생성한다면 이는 거의 항상 옳은 대답이지만, 사전 학습 데이터에 다른 응답이 포함되어 있다면 매우 높은 손실(loss)을 받게 됩니다. 반면, 모델이 여러 가능한 표현과 위치(예: 남극과 같은 잘못된 위치)에 대해 확률 질량을 분산시킨다면, 학습 데이터에 관찰된 모든 응답에 적어도 일정한 확률이 할당되므로 손실이 훨씬 낮아질 수 있습니다. 사전 학습 목표는 여러 가능한 응답에 확률 질량을 '분산시키는' 것을 보상할 수 있으므로, 언어 모델은 학습 데이터에 과소적합하거나 사전 학습 데이터에 없는 지식을 요구하는 질문에 대해 잘못된 진술을 생성할 수 있습니다.
원칙적으로, 강화 학습 기반 목표는 사실적으로 부정확한 진술에 페널티를 부과하는 적절한 보상 함수를 선택함으로써 기존 사전 학습 목표의 실패를 피할 수 있습니다. 그러나 이러한 보상 함수를 정확히 계산하는 것은 비용이 많이 들 수 있습니다. 사실성을 검증하는 인간 라벨을 얻는 데는 시간이 많이 걸리고 비용이 많이 듭니다. Min et al.(2023)의 보고에 따르면, 전문 팩트체커가 잘 알려진 개인에 대한 모델 생성 전기를 검증하는 데 약 9분이 소요되었으며, 505개의 전기를 주석 처리하는 데 약 $2,000가 들었습니다.
이러한 어려움을 해결하기 위해, 우리는 인간 개입 없이 진실성을 추정하는 최근의 발전을 활용합니다.
- a) 외부 지식 베이스가 텍스트 내 주장들을 얼마나 지지하는지 평가하는 참조 기반 자동 사실 검증 방법(Min et al., 2023; Chern et al., 2023)과
- b) 모델 자체의 신뢰도를 진실성의 대리로 사용하는 참조 비의존적 진실성 평가(Kuhn et al., 2023에서 영감을 받음)를 활용합니다.
이러한 진실성 측정치와 비라벨링 프롬프트 데이터셋(예: "Yo-Yo Ma의 전기를 작성하세요.")을 사용하여, 사전 학습된 모델에서 생성된 응답 쌍을 샘플링하고, 사실 오류율이 더 낮은 응답에 대한 선호도 라벨을 추가합니다. 이후, 최근 제안된 Direct Preference Optimization(DPO, Rafailov et al., 2023) 알고리즘을 사용하여 이러한 데이터를 안정적이고 효율적으로 학습할 수 있습니다. 결과적으로, 이 파이프라인은 외부 지식 베이스를 사용하든 사용하지 않든, 기본 언어 모델을 미세 조정하여 사실 오류를 덜 자주 발생시키도록 합니다. 사실성 조정 파이프라인의 개요는 그림 1을 참조하십시오.
가장 직관적인 방법이기는 한듯
우리의 주요 기여는 인간 주석 없이 장문 텍스트 생성에서 사실성을 최적화하는 간단한 접근 방식을 제시한 것입니다. 우리는 이 접근 방식을 유명 인물의 전기 생성과 의학적 질문에 대한 개방형 응답을 목표로 하는 두 가지 사실성 평가 벤치마크 데이터셋에서 검증했습니다. 사실성을 위해 미세 조정하면 기존 RLHF보다 성능이 우수하며, 사실성을 높이기 위한 LLM 디코딩 전략에 상호 보완적인 이점을 제공합니다. 또한 참조 기반 및 참조 비의존적 진실성 추정으로 평가된 선호도 쌍에서 학습된 결과에서 질적인 차이를 발견했습니다. 전반적으로, 자동으로 생성된 선호도 쌍에서 사실성을 학습하는 것은 인간 개입 없이 모델의 사실성을 향상시키는 비용 효율적인 방법이며, Llama 모델이 생성한 전기에서의 주장 오류 수를 약 50% 이상, 의학 질문에서는 25% 이상 줄이는 결과를 보였습니다.
DPO로 학습할 데이터를 자동으로 만들었고, 이를 통해 주장 오류를 줄였다는 것
도메인: 유명인물의 전기생성, 의학적 질문
2 PRELIMINARIES
사실성(factuality) 향상을 위한 직접 미세조정 접근법은 후보 행동(또는 응답)에 대한 선호(preferences)를 활용한 강화학습(RL from preferences) 프레임워크를 사용합니다. 이 섹션에서는 언어 모델 관점에서의 강화학습, 그리고 선호 기반 RL의 특정 알고리즘인 **직접 선호 최적화(Direct Preference Optimization, 이하 DPO; Rafailov et al., 2023)**에 대해 간단히 개요를 제시합니다.
1. 언어 모델 미세조정을 위한 강화학습(RL)
강화학습(RL)은 이미 사전 학습된 언어 모델에서 복잡하고 유용한 행동을 이끌어내기 위한 효과적인 미세조정 방법으로 입증되었습니다. RL의 맥락에서, 언어 모델 정책 (일반적으로 오토리그레시브 Transformer)는 입력 쿼리 가 주어졌을 때 가능한 응답 들에 대한 조건부 확률 를 생성합니다(와 모두 텍스트 시퀀스). 이때, 강화학습의 목표는 정책이 만들어내는 출력의 평균 보상(reward)을 최대화하는 것입니다. 보상 함수 는 입력-출력 쌍 에 스칼라 점수를 할당하여, 해당 출력의 바람직함(또는 가치)을 측정합니다.
하지만, 기존 연구에서는 보상 함수를 제한 없이 최대화하는 미세조정 방식이 모델을 보상 함수의 편향이나 특이점을 과도하게 활용하는 방향으로 치우치게 만들어, 우리가 의도하는 행동과 어긋날 수 있다는 문제(overoptimization)를 지적했습니다 (Gao et al., 2022). 이러한 문제를 완화하기 위해, 실제로는 보상 최대화 항에 KL 발산(KL-divergence) 페널티를 추가하여 모델이 사전 학습(또는 초기화) 상태에서 크게 벗어나지 않도록 하는 방식이 널리 사용됩니다(Ouyang et al., 2022; Bai et al., 2022; Stiennon et al., 2020).
너무 보상모델로 나온 reward값을 최대화하면 overoptimization 되는 문제가 있으니, KL divergence 페널티를 추가하여 objective function 설계한다.
즉, 다음과 같은 형태를 지닌 목적함수를 최적화합니다.
- 는 프롬프트(prompt)들로 구성된 데이터셋입니다.
- 는 **레퍼런스 모델(reference model)**로, 보통 시연(demonstration) 데이터로 지도학습을 수행한 사전 학습 모델입니다.
- 는 보상과 발산 사이의 균형을 조절하는 계수입니다.
이 KL 페널티를 통해, 모델은 보상을 높이되, 초기 레퍼런스 모델과 지나치게 달라지지 않도록 조절함으로써 과최적화(overoptimization) 문제를 줄입니다. 실제 훈련 시에는 근접 정책 최적화(PPO; Schulman et al., 2017) 알고리즘이 가장 널리 쓰이지만(Ramamurthy et al., 2022; Lu et al., 2022), PPO는 구현과 튜닝이 복잡하고(Zheng et al., 2023), 온라인 학습을 필요로 해 학습 시간이 크게 늘어난다는 단점이 있습니다.
2. 선호 기반 RL과 직접 선호 최적화(DPO)
대부분의 대규모 언어 모델들은 위 식 (1)의 보상 함수를 모델 출력들 간 선호도(preference) 랭킹이 기록된 데이터로부터 학습된 보상 함수로 대체하여 미세조정을 진행합니다. DPO(Direct Preference Optimization) 알고리즘(Rafailov et al., 2023)은 이러한 상황에서, 언어 모델에 대한 강화학습을 단순화합니다.
DPO는 선호 쌍들의 데이터셋
을 사용합니다. 여기서 는 프롬프트, 와 은 보통 모델로부터 샘플링된 응답 후보들이며, 가 보다 선호도가 높습니다( 로 표기). 선호도 쌍을 관측할 확률은 Bradley-Terry 모델(Bradley & Terry, 1952) 형태로 가정합니다:

는 시그모이드(sigma) 함수이고, 는 관측되지 않는(학습 대상인) 보상 혹은 점수 함수입니다. Rafailov et al. (2023)에 따르면, 위 식 (1)의 문제에서 최적 정책 는 다음과 같은 간단한 분류(classification) 손실을 최소화하는 방식으로 구할 수 있다고 합니다:
즉, DPO는 명시적인 보상 함수를 따로 학습하거나, 학습 과정에서 정책으로부터 온라인 샘플링을 할 필요 없이, 고정된 선호도 데이터셋만을 활용해 를 학습할 수 있게 합니다. 이는 다른 모방(imitation) 이외의 목표에 대해서도 언어 모델을 미세조정하기에 매력적인 방식을 제시합니다. 하지만, 사실성(factuality)을 높이는 방향으로 선호 쌍을 구성하는 것은 여전히 과제로 남아 있습니다.
위와 같이 DPO를 활용하면, 보상 함수를 직접 설계하거나 정책을 샘플링하는 등의 복잡한 과정 없이도 언어 모델을 특정한 목표, 예컨대 사실성 향상을 위해 조정할 수 있게 됩니다. 이때 핵심은 보다 사실적인 응답을 더 선호하는 쌍을 구축하고, 해당 선호도를 모델에 학습시키는 것입니다. 이러한 접근을 통해, 모형이 비사실적 정보를 방지하고 정확한 정보를 제시하도록 유도할 수 있습니다.
간단히 RL로 alignment 학습과 DPO로 alignment 학습하는것을 소개함. 근데 이 논문에서는 DPO로 결국 학습했다는 것.
성능적으로는 PPO가 미세하게 좋을지라도 코드적으로 DPO는 복잡할게 없으니 장점이기도하고, 여기서 제시한 research question으로는 PPO로 최적화하고 그럴필요까지 없기도 함
3 CONSTRUCTING PREFERENCES ENCOURAGING FACTUALITY IN LONG-FORM TEXT
기존의 선호 학습 알고리즘(예: DPO)은 최대우도(maximum likelihood) 이외의 목표를 효율적이고 안정적으로 학습할 수 있도록 해줍니다. 그러나 이러한 알고리즘은 프롬프트에 대한 가능한 응답들 간의 선호도 데이터가 필요합니다. 이 섹션에서는 인간의 라벨링 작업 없이 이러한 선호 데이터를 생성할 수 있는 두 가지 접근법을 제안합니다.
첫 번째 접근법은 외부 참조 텍스트(external reference texts)와의 일관성을 진실성(truthfulness)의 척도로 사용하는 기존 방법들을 활용합니다.
두 번째로는 모델 자체의 보정을 거친(calibrated) 확률을 진실성의 대리 지표로 활용하는 새로운 방법을 제안합니다.
이 두 가지 접근법에서, 각 생성된 응답 내의 주장(claim)에 대해 추정된 진실성 점수를 계산하며, 평균 진실성 점수가 더 높은 응답을 **선호 응답(preferred response)**으로 선택합니다. 두 가지 진실성 점수 산출 절차의 개요는 그림 2에 제시되어 있습니다.
즉 응답을 여러 개 샘플링해서, 각 응답에 대한 진실성 점수를 계산하여, preference 데이터를 만든다는 것
진실성 점수를 계산하는 방법으로는 2가지를 사용한다는 것. reference-based와 reference-free 방법
그림의 동물모양 원은 llama을 의미하는 듯
중요한 점은, 진실성 점수 산출은 훈련 단계에서만 필요하다는 것입니다. 테스트 단계에서는 모델로부터 일반적인 방식으로 샘플링할 수 있습니다.
이를 통해, 인간의 수작업을 최소화하면서도 모델이 더 진실한 응답을 학습하도록 데이터를 생성하고 활용할 수 있습니다.
3.1 REFERENCE-BASED TRUTHFULNESS ESTIMATION
Wikipedia 기사의 상대적으로 일관된 높은 품질 때문에, 본 연구에서는 FactScore를 참조 기반 진실성 점수 산정의 대표적인 방법으로 채택합니다.
- 텍스트를 평가하기 위해, FactScore는 먼저 GPT-3.5를 사용하여 텍스트에 포함된 원자적 주장(atomic claims)의 목록을 추출합니다.
- 그런 다음, Llama-1-7b 모델(Touvron et al., 2023a)과 같은 소형이지만 효율적인 모델을 사용하여 해당 모델이 사실 확인을 위해 미세 조정된 상태에서 자연어 추론(MacCartney & Manning, 2008)을 수행하여 각 주장이 참고 텍스트에 의해 지지되는지 여부를 판단합니다.
- 텍스트의 진실성 점수는 추출된 원자적 주장 중 참고 텍스트에 의해 지지된 것으로 추정된 비율입니다.
그러나 참조 기반 진실성에는 관련성 있고 고품질의 참고 텍스트에 대한 접근성이 필요하다는 중요한 한계가 있습니다. 이는 진실성 평가가 실제 문서를 알기 어렵거나 정확한 검색이 어려운 전문 분야나 비구조적인 작업과 같은 도메인에서는 적용이 제한될 수 있음을 의미합니다. 또한, 참조 기반 진실성 추정은 원자적 주장들이 기사에 의해 지지되는지를 판단할 수 있는 신뢰할 수 있는 모델을 요구합니다.
참조 기반이라고 항상 best 시나리오는 아니라는 것. 위키피디아 같은 참고할만한 고품질 데이터가 있어야하고, 이를 찾아내야함. 또한 support 여부를 판단하는 모델도 (여기선 llama) 신뢰할만한 성능이어야함
이러한 한계를 고려하여, 우리는 외부 지식 검색과 일치 여부 확인의 필요성을 피하는 참조 없는(reference-free) 진실성 추정 접근 방식을 제안합니다. 이 방법은 열린 형식의 텍스트 진실성을 평가하는 데 적합하며, 외부 참조 자료를 사용하는 제약을 극복할 수 있습니다.
3.2 REFERENCE-FREE CONFIDENCE-BASED TRUTHFULNESS ESTIMATION
외부 지식의 필요성을 제거하기 위해, 우리는 대형 언어 모델(LLM)이 잘 보정(calibrated)되어 있다는 사실(Kadavath et al., 2022; Tian et al., 2023)을 활용합니다. 즉, 대형 언어 모델이 주어진 주장 세트에서 각 주장에 고정된 신뢰도 를 할당할 경우, 그 주장들 중 실제로 올바른 주장 비율이 와 일치합니다. 다시 말해, 많은 주장에 대해 기대값을 계산하면, 완벽하게 보정된 모델의 주장을 향한 신뢰도는 그 주장이 올바를 확률과 일치합니다.
이 보정 개념을 활용하기 위해, 우리는 모델이 생성한 텍스트(예: Yo-Yo Ma의 전기)를 모델 지식에 대한 쿼리들의 집합으로 해석합니다(예: “Yo-Yo Ma는 언제 태어났는가?” 또는 “Yo-Yo Ma는 형제가 몇 명인가?”).
우리의 목표는 모델이 지식에 대한 정확한 주장을 이끌어낼 가능성이 높은 쿼리를 포함하는 응답을 생성하도록 유도하는 것입니다.
- 이를 위해, 모델이 생성한 텍스트를 구성하는 쿼리들로 분해합니다.
- 각 쿼리에 대해, 해당 쿼리가 올바른 주장을 이끌어낼 가능성을 모델의 응답 신뢰도를 바탕으로 추정할 수 있습니다.
- 예를 들어, “Yo-Yo Ma는 언제 태어났는가?”라는 질문에 대해 모델이 ‘1955’에 0.7, ‘1953’에 0.3의 확률을 할당하면, 이 쿼리가 올바른 주장을 이끌어낼 확률(기대값 기준)은
- 0.7^2+0.3^2=0.58입니다.
- atomic question의 각 샘플응답의 확률의 제곱을 더한게 올바른 주장을 이끌어낼 확률이라고 본다.
- WHY? LLM말론 Brier Score하고 연관있다고 하는거 같음
- (직관적으론) 즉, 질문이 명확하면 응답은 확률이 한쪽으로 쏠릴수록 최종점수가 높게 되는 형식이다. 이는 모델이 calibration이 잘되어있기 때문에 올바른 주장을 이끌어낼 확률이 되는 것
이 접근 방식에서, 신뢰도 점수를 계산하는 데 사용되는 모델이 참조 텍스트 데이터베이스를 대체합니다. 우리는 이 기대 신뢰도(Expected Confidence) 접근 방식과, 주어진 쿼리에 대한 응답 신뢰도 중 최대값을 취하는 최대 신뢰도(Max Confidence) 접근 방식을 평가합니다. 후자는 모델이 샘플링 대신 탐욕적(greedy)으로 응답을 생성한다고 가정합니다.
구체적으로, 먼저 GPT-3.5를 사용해 텍스트에서 원자적 주장(atomic claims)을 추출합니다. 그런 다음, GPT-3.5를 사용해 각 주장을 해당 사실에 대한 지식을 테스트하는 질문(쿼리)으로 변환합니다. 이 과정에서 질문을 모호하지 않게 변환하는 것이 중요합니다.
- 예를 들어, “Yo-Yo Ma는 첼로를 연주한다”는 주장은 “Yo-Yo Ma는 어떤 악기를 연주하나요?”로 변환되어야 합니다.
- “Yo-Yo Ma는 무엇을 연주하나요?”라는 질문은 답변 유형이 잘못된 경우를 초래할 수 있습니다(예: 첼로 vs 농구).
- 후자의 질문을 사용하면, 모델은 “첼로”에 50%, “농구”에 50%의 확률을 할당할 수 있습니다.
- 이 경우, 모델의 낮은 신뢰도는 질문의 모호성 때문이지, Yo-Yo Ma가 연주하는 악기에 대한 낮은 신뢰도 때문이 아닙니다.
변환된 질문이 최소한의 모호성을 가지도록 조정한 후, 기본 모델(예: Llama-1-7b)을 사용해 해당 질문에 대한 답변을 20회 재샘플링합니다. 우리는 몇 가지 예시를 포함한 프롬프트를 사용해 잘 구성된 답변을 유도합니다. 그런 다음, 응답을 동등성 기준으로 분류합니다. 이는 응답의 문자열을 휴리스틱 방식으로 매칭하거나 GPT-3.5를 사용해 응답이 의미적으로 동등한지 평가하는 방식에서 영감을 받았습니다(Kuhn et al., 2023). 휴리스틱 문자열 매칭은 불용어(stop word)를 제외하고 응답 내 단어가 동일한지 확인합니다.
각 주장의 점수는 모델 응답의 기대 신뢰도 또는 최대 신뢰도 중 하나로 계산됩니다. 최종적으로, 해당 모델 생성 텍스트에 포함된 모든 주장에 대한 평균 점수를 계산하여 결과를 도출합니다.
3.3 FACTUALITY TUNING: PUTTING IT ALL TOGETHER
truthfulness estimator를 선택하면, 라벨이 없는 프롬프트 세트에서 언어 모델의 사실성 튜닝을 위한 선호 데이터셋을 구성할 수 있습니다.
먼저, 단순 온도 샘플링(온도 1.0 사용)을 통해 각 프롬프트에 대해 모델로부터 n개의 후보 응답을 샘플링합니다(사전 학습이 완료되지 않은 모델의 경우 몇 샷 프롬프트를 사용). 그런 다음 선택한 진실성 추정기(참조 기반 또는 참조 비기반)를 사용하여 각 응답의 진실성 점수를 계산합니다.
각 프롬프트에 대한 n개의 응답 중 각각의 두 응답 쌍에 대해, 단순히 더 높은 진실성 점수를 가진 응답을 선호 응답으로 선택합니다.
m개의 프롬프트 세트에 대해, 최종적으로 개의 선호 쌍이 생성됩니다(여기서 는 점수가 동일한 쌍의 수입니다). 모든 응답쌍을 preference 데이터로 간주해서 사용하는 것 (동일 점수만 빼고)
마지막으로, 모든 모델 응답을 SFT(지도 미세 튜닝) 단계의 목표로 사용하는 DPO(Direct Preference Optimization) 파이프라인을 통해 모델을 미세 튜닝합니다.
4 EXPERIMENTS
우리 실험은 선호 기반 강화 학습(preference-based reinforcement learning)을 통해 사실성을 학습할 수 있는 정도를 평가하며, 섹션 3에서 설명한 완전 자동화된 선호 생성 파이프라인을 사용합니다.
우리는 참조 기반(reference-based) 평가 기준으로 미세 조정된 모델을 FactTune-FS라고 하고,
완전히 참조가 필요 없는 모델 신뢰도 기반 점수로 미세 조정된 모델을 FactTune-MC라고 부릅니다.
모든 실험에서 모델 신뢰도를 위한 샘플은 Llama-1-7b에서 추출했습니다.
데이터셋
우리는 두 가지 작업, 즉 전기(biography) 생성과 의학 질문 응답에서 실험을 수행했습니다.
- 전기 생성: 463명의 다양한 유명 인물을 대상으로 데이터셋을 생성했으며(훈련 288명, 검증 50명, 테스트 125명), 각 인물당 10개의 짧은 단락으로 이루어진 전기를 포함합니다.
- 의학 질문 응답: 295개의 다양한 일반 의학적 상태(훈련 150개, 검증 45개, 테스트 100개)에 대한 데이터셋을 사용했으며, 각 상태에 대해 6개의 질문과 6개의 짧은 단락으로 구성된 답변을 포함합니다. 테스트 세트는 각 상태에 대해 1개의 질문만 사용했습니다.
프롬프트는 GPT-3.5로 생성되었으며, 답변은 각 데이터셋에 대해 몇 가지 예제 프롬프트를 제공하여 Llama-1-7b에서 샘플링되었습니다.
너무좋은 LLM을 써서 샘플링하는 것도 안좋을듯. 환각이 적을테니? llama-1-7b가 적절한 수준이지 않았을까 생각됨
이 절차는 일관적으로 잘 구성되고 정보가 풍부한 응답을 생성했으나, 사실적 오류가 포함될 가능성도 있었습니다.
FactScore는 주어진 Wikipedia 문서에 대해 검색을 사용하기 때문에, 우리는 Wikipedia 페이지가 있는 인물 및 의학적 상태를 기반으로 데이터를 생성했습니다. 데이터셋의 요약 통계와 예시는 Table 1에 나와 있습니다.
베이스라인
우리는 사실성 조정(factuality tuning)을 다음과 비교합니다.
- 추론 시간 개입(Inference-Time Intervention, ITI): Li et al. (2023)
- 디코딩 대비 레이어(Decoding by Contrasting Layers, DOLA): Chuang et al. (2023)
ITI에서는 FactScore 레이블을 사용하여 선형 프로브(linear probes)의 훈련을 감독하며, 훈련 샘플에서 추출된 원자적 사실(atomic facts)을 바탕으로 모델의 활성화가 잘못된 사실에서 올바른 사실로 이동하도록 방향을 설정합니다.
Llama-2의 경우, 인간 선호 레이블(human preference labels)을 사용하는 '표준' RLHF(Touvron et al., 2023b)와도 비교합니다.
평가
생성된 각 응답을 평가하기 위해, FactScore 절차를 따라 올바른 사실과 잘못된 사실의 개수를 추출합니다. 그리고, 사실성 조정 이후에도 모델 응답이 여전히 관련성과 유용성을 유지하는지 확인하기 위해, GPT-3.5를 사용하여 각 사실이 질문과 관련이 있는지를 판단합니다(프롬프트는 부록 A.2에 나와 있음).
- 전기 생성 작업에서는 사실들이 인물과 거의 100% 관련이 있기 때문에, 비용 절감을 위해 관련성 판단을 생략했습니다.
- 각 데이터셋에 대해 올바른 관련 사실의 수(# Correct), 부정확한 사실의 수(# Incorrect), 추출된 전체 사실 중 올바른 관련 사실의 비율(% Correct)을 보고합니다.
생성된 사실의 총 수는 생성마다 다를 수 있음을 주의해야 합니다. 평가 지표는 부록 A.1에서 검증했습니다.
4.1 FINE-TUNING FOR FACTUALITY ACROSS DOMAINS
이 섹션에서는 Llama-1-7b와 Llama-2-7b에 대해 다양한 도메인에서 사실성을 학습하기 위한 우리의 방법론을 적용합니다. 결과는 Table 2에 제시되어 있습니다.
참조 기반 사실성 점수를 활용한 쌍(pair)으로 학습한 FactTune-FS는 전기(biographies)와 의학 질문 응답(medical question-answering) 작업에서 RLHF 모델 및 디코딩 기반 사실성 베이스라인(decoding-based factuality baselines)보다 각각 최소 11% 및 13% 더 높은 사실 정확도를 지속적으로 보였습니다.
FactTune-FS는 사실 오류의 수를 줄이며, 생성된 올바른 정보의 양에서도 감소하지 않거나 약간의 감소만을 유지하며, 경우에 따라서는 증가를 나타냅니다.
모델 신뢰도 점수(model-confidence scores)를 기반으로 한 사실성 조정(FactTune-MC, FactTune-EC) 역시 두 데이터셋 모두에서 RLHF 모델의 오류율을 줄이고 사실성을 개선했으며, 외부 참조 정보가 전혀 필요하지 않았습니다.
reference-free 방법으로도 모델의 오류율을 줄인다는것 자체가, 모델이 알고 있는 사실을 기존보다 잘못 말하는 경우가 줄었다는 것이다. 즉 일종의 alignement learning을 추가적으로 했다고 볼 수도 있고.. 애초에 모델의 지식과 상충되는 말을 하는 것이 문제라는 것
물론 reference-free라해도 학습데이터를 만들기 위해, 중간 스텝에서 GPT3.5와 같은 외부 LLM을 썼다는것이 knowledge leverage을 일부 했다고 볼수도 있긴함.
학습할 모델만을 사용해서 하면 효과가 어떻게 될지가 궁금. self-improve 와 같은..
4.2 FINE-TUNING CHAT MODELS FOR FACTUALITY
오늘날 널리 사용되는 실용적인 챗봇은 사용자에게 유용한 방식으로 다양한 지침을 따르도록 RLHF(Reinforcement Learning with Human Feedback)를 통해 훈련된 언어 모델(LM)입니다. 이 섹션에서는 인간 개입 없이 사실성을 조정하는 우리의 방법이 RLHF 기반 챗 모델의 사실성을 개선할 수 있는 능력을 조사합니다.
Llama-2-7b-Chat을 사용하여, 사실성 및 의미론적 엔트로피(semantic entropy)를 기반으로 한 보상을 결합해 RLHF LM을 미세 조정하면, 총 사실 수의 큰 감소 없이 사실성을 더욱 향상시킬 수 있음을 발견했습니다(결과는 Table 3 참조).
DPO가 아닌, 그냥 사실성의 최종점수를 reward로 간주하고 RLHF로 학습해도 좋다는 것인가?
즉, **사실성 조정(factuality tuning)**은 RLHF와 결합하여 챗 모델의 사실성을 더욱 개선할 수 있습니다.
정량적 지표는 사실 정확도의 명확한 증가를 보여주며, 우리는 또한 사실성 미세 조정이 모델 성능의 다른 측면과 일반화 능력에 미치는 영향을 조사했습니다. GPT-4를 심사관으로 사용한 결과, FactTune-MC와 FactTune-EC는 SFT(Supervised Fine-Tuning) 모델과 비교하여 사실성과 유창성을 모두 개선할 수 있음을 확인했습니다(예시는 부록 Table 8 참조).
- GPT-4는 샘플의 80%에서 FactTune-EC를 SFT보다 더 유창하다고 평가했으며, FactTune-MC는 75%, ITI(Inference-Time Intervention)는 57%, FactTune-FS는 33%, DOLA(Decoding by Contrasting Layers)는 16%로 나타났습니다(n=100).
마지막으로, 사실성을 위한 미세 조정은 데이터셋 간 일반화(generalization) 능력을 보여줍니다.
Llama-2-7b-Chat을 전기(biographies) 데이터셋에서 미세 조정하여 MedicalQA 데이터셋을 평가하거나 그 반대로 평가하는 방식(즉, OOD FactTune-FS, Out-of-Domain FactTune-FS)을 사용했을 때, RLHF보다 사실성이 더 크게 개선되었습니다(Table 3 참조).
4.3 COMPLEMENTARY BENEFITS OF FACTUALITY TUNING AND DECODING-TIME FACTUALITY INTERVENTIONS
사실성을 위한 미세 조정 외에도, 여러 기존 연구들은 디코딩 과정이나 모델 파라미터 자체에 대한 **추론 시 개입(inference-time interventions)**을 통해 LLM(대규모 언어 모델)의 사실성을 향상시키고자 합니다. 우리는 이러한 두 가지 방법을 결합하여 적용하는 가능성을 탐구했습니다. 즉, 사실성 조정 절차를 통해 미세 조정된 모델에 사실성을 강화하는 디코딩 방법을 사용하는 것입니다.
Table 4에 두 접근 방식을 결합한 결과를 제시했습니다.
대부분의 경우, **DOLA(Decoding by Contrasting Layers)**는 사실성 미세 조정된 모델의 정확성을 추가로 향상시킬 수 있음을 발견했으며, Llama-2의 전기(biography) 작업에서만 예외가 있었습니다.
이는 사실성을 개선하기 위한 방법을 종합적으로 평가한 결과는 아니지만, 사실성을 강화하는 다양한 접근 방식이 상호 보완적인 메커니즘을 통해 작동할 가능성을 시사합니다.
4.4 IMPACT OF DESIGN DECISIONS OF OPEN-ENDED MODEL CONFIDENCE SCORING
이 섹션에서는 사실성 조정을 위한 참조 없는 진실성 점수(reference-free truthfulness score)를 구성하는 단계에서의 다양한 설계 선택이 미치는 영향을 논의합니다. 여기에는 사실 추출 방법과 사용할 신뢰도(metric) 측정 방식이 포함됩니다.
첫 번째 단계는 장문의 응답에서 개별 사실을 추출한 뒤, 이를 기반 모델에서 다시 샘플링하여 해당 사실에 대한 모델의 신뢰도를 평가하는 것입니다.
- 사실 추출 및 재샘플링 절차에서 한 가지 접근법(Atomic)은 추출된 원자적 사실(atomic fact)을 GPT-3.5로 몇 가지 예제 프롬프트를 사용하여 해당하는 '원자적 질문(atomic question)'으로 변환한 뒤, 각 질문에 대한 답변을 기반 LLM에서 샘플링하는 방식입니다.
- 다른 접근법(Entity)은 nltk를 사용하여 응답에서 엔티티(entity)를 추출한 뒤, 추출된 엔티티를 인라인으로 재샘플링합니다.
원자적 질문 추출(Atomic question extraction)은 더 포괄적이고 정확할 가능성이 있는 반면, 명명된 엔티티 추출(named entity extraction)은 폐쇄형(closed) 모델을 사용하지 않는 비용 효율적인 대안입니다. Table 5에서는 원자적 질문 추출이 명명된 엔티티 추출보다 우수한 성능을 보였지만, 정확도의 차이는 Medical QA보다 Biographies에서 더 컸습니다.
사실을 재샘플링한 후에는 신뢰도 측정(metric) 방식을 비교합니다. 여기에는 가장 일반적인 샘플에 기반한 모델의 신뢰도(Max Conf)와 원래 응답에서의 사실 신뢰도(Expected Conf)가 포함됩니다.
- Max Conf를 계산하기 위해, 샘플을 문자열 매칭 기반의 등가 클래스(equivalence class)로 분류하고(섹션 3.2에서 설명) 가장 큰 클래스의 비율을 사용합니다.
- Expected Confidence를 계산하기 위해, Max Confidence와 동일한 응답 분류 절차를 수행하여 개의 클래스(bin)와 해당 신뢰도 를 생성한 뒤, 를 계산합니다.
Table 5의 결과에 따르면, Max Conf와 Expected Conf의 성능 차이는 작업에 따라 다르지만, 두 방식의 결과는 상당히 유사합니다.
5 RELATED WORK
많은 연구에서 **사실적 오류(때로는 ‘환각(hallucinations)’이라고도 함)**를 줄이는 것이 더 신뢰할 수 있는 언어 모델을 구축하기 위한 주요 과제로 지목되었습니다(Lewis et al., 2020; Kadavath et al., 2022; Zhang et al., 2023). 이는 가장 강력한 언어 모델에도 해당됩니다(Bubeck et al., 2023).
한편, ‘환각’이라는 용어는 사실적일지라도 참조 텍스트에서 지원되지 않는 요약 또는 번역 시스템의 출력을 나타낼 때 사용되기도 합니다(Maynez et al., 2020; Zhang et al., 2020; Cao et al., 2022). 다른 연구에서는, 시각-언어 모델(vision-language model)이 입력된 시각적 정보와 일치하지 않는 출력을 생성하는 경우, 예를 들어 이미지에 존재하지 않는 객체를 설명하는 캡션 시스템에 대해 ‘환각’이라는 용어를 사용합니다(Rohrbach et al., 2018).
우리의 경우, Wikipedia와 같은 ‘권위 있는’ 텍스트 세트와 일치하지 않거나 사실적으로 잘못된 진술에 초점을 맞춥니다.
사실 오류 감지 및 수정 접근법
여러 연구는 다음과 같은 방법을 통해 사실적 오류를 감지하려고 시도했습니다.
- 프롬프트 변형(perturbation)에 대한 민감도를 측정(Xu et al., 2023).
- 재샘플링 시 응답의 높은 다양성(Kadavath et al., 2022; Mundler et al., 2023; Kuhn et al., 2023; Manakul et al., 2023).
- 외부 지식 소스와의 불일치(Min et al., 2023; Chern et al., 2023).
- 내부 활성화의 속성(Azaria & Mitchell, 2023).
또한, 오류를 감지하는 데 그치지 않고, 생성된 후 오류를 수정하는 방법도 제안되었습니다(Peng et al., 2023; Gao et al., 2023; Dhuliawala et al., 2023). 이 접근법은 신뢰할 수 있는 지식 베이스에서 관련 데이터를 검색한 후, 다른 LLM을 사용해 일관성을 검증하는 방식으로 작동합니다. 하지만 검색 기반 방법(retrieval-based methods)은 다음과 같은 주요 문제를 안고 있습니다.
- 매개변수적 지식과 검색된 지식 간 충돌 해결(Longpre et al., 2022; Chen et al., 2022).
- 모델 크기가 증가함에 따라 사실성 개선을 유지하는 어려움(Mallen et al., 2023).
- 시스템 복잡성을 크게 증가시킴.
이에 따라, 가장 일반적인 오픈소스 소비자 언어 모델은 순수한 매개변수적(parametric) 모델을 사용합니다(Touvron et al., 2023a). 우리의 FactScore 접근법은 훈련 중에만 검색을 사용하며, 추론 시 복잡성을 회피합니다. 원칙적으로는 어떤 기준도 선호도를 생성하는 데 사용할 수 있지만, 상대적으로 간단한 기준을 선택하더라도 사실성을 크게 개선할 수 있음을 보여줍니다.
예방적 접근
우리의 접근법과 가장 유사한 방식은 다음과 같이 사실 오류 생성을 처음부터 예방하려는 시도입니다.
- 프롬프트 전략을 사용(Si et al., 2023).
- 모델의 내부 표현을 변형(Chuang et al., 2023; Li et al., 2023).
하지만 고정된 휴리스틱(heuristic)을 사용해 내부의 ‘사실성’ 차원을 식별하는 대신, 우리는 사실적 진술을 생성하는 최종 목표를 직접 최적화하며, 이 방식이 사실성 개선에 더 큰 효과를 보인다는 점을 발견했습니다.
마지막으로, 대부분의 기존 연구는 단문 생성(short-form NLG) 작업(예: 단문형 질문-응답)에 초점을 맞췄으나(Kadavath et al., 2022), 우리는 긴 형식(long-form)의 비구조적 텍스트에서 사실 정보에 대한 모델 신뢰도를 측정하고, 참조 없는 방식(외부 지식 베이스나 주석이 필요 없음)으로 진실성을 추정하는 방법을 탐구합니다.
6 CONCLUSION
이 논문에서는 언어 모델이 **사실적 내용(factual content)**을 생성하는 능력을 개선하기 위한 실용적이고 효과적인 전략을 제안하며, 특히 **장문 생성(long-form generations)**에 중점을 둡니다. 우리는 장문 텍스트의 진실성을 추정하기 위한 두 가지 접근법을 개발하고 이를 선호 기반 학습(preference-based learning)을 통해 최적화했습니다.
기존의 참조 기반(reference-based) 진실성 추정기는 외부 지식을 활용하여 특정 진술의 진실성을 판단하는 반면, 우리는 언어 모델의 **불확실성(uncertainty)**을 사실성의 지표로 사용하는 새로운 참조 없는(reference-free) 진실성 추정 절차를 도입했습니다. 실험 결과, 두 기준 중 하나로 언어 모델을 미세 조정하면 모델이 생성하는 잘못된 사실(즉, 환각(hallucinations))의 수를 안정적으로 줄일 수 있음을 보여줍니다.
참조 없는 접근법은 ‘골드 텍스트(gold text)’ 참조 코퍼스가 필요 없기 때문에, 사실성을 개선하기 위한 확장 가능한 자기 지도(self-supervision) 전략을 제공합니다.
주요 실험 결과와 미래 연구 방향
실험 결과는 다음과 같은 여러 연구 방향을 제안합니다.
-
장문 생성 사실성 평가 벤치마크
장문 언어 모델 생성의 사실성에 대한 연구와 벤치마크가 부족하기 때문에, 우리는 이를 평가하기 위한 두 가지 새로운 작업(tasks)을 제안했습니다.
이 작업들은 사실성을 개선하고자 하는 다양한 시나리오를 대표하지만, 모든 경우를 완전히 포괄하지는 못합니다. -
RLHF와 사실성 조정의 결합
RLHF로 이미 미세 조정된 대화형 모델의 사실성을 개선할 수 있는 근거를 제시했지만, RLHF 보상과 사실성 순위를 최적으로 결합하는 방법에 대한 문제는 여전히 남아 있습니다. -
기존 방법과의 통합 가능성
사실성 조정과 기존 사실성 개선 방법(DOLA와의 결합 실험에서와 같이)을 결합하는 추가적인 방법을 탐구하는 것도 유망한 연구 방향이 될 수 있습니다. -
사실성 선호도 구성의 대안 접근
예를 들어, 자체 수정(self-correction) 방법(Pan et al., 2023)을 활용한 새로운 사실성 선호도 구성 방식도 탐구할 수 있습니다. -
모델 크기 확장
이번 연구에서는 7B 모델에만 초점을 맞췄지만, 더 큰 모델(및 더 큰 선호도 데이터셋)에 사실성 조정 레시피를 확장하면 환각을 더욱 줄일 가능성이 있습니다.
결론적으로, 우리는 사실성을 높이기 위한 새로운 접근법과 실험적 증거를 제시하며, 이를 통해 향후 언어 모델 연구의 새로운 방향을 제안합니다.
Reference
댓글
댓글 쓰기