NL-221, Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Preprint 2024

◼ Comment

  • 생각해보니, LLM 상태의 환각과 우리가 원하는 테스크에서 학습한 모델의 환각을 비교하는 것을 통해 뭔가 연구거리를 만들어볼 수도...?
    • 감정인식테스크에서 LLM이 이미 알고있는 데이터세트만 가지고 학습하면? 그래도 성능이 향상되나?
    • LLM으로 데이터 난이도 평가하여 curriculum learning
    • LLM이아는걸 한번더 학습하면 성능향상?
  • 이 논문에서 말하고자하는 것
    • 1) LLM의 지식은 pretraining으로부터 기인한다
    • 2) LLM fine-tuning을 할 때 pretraining에 없는 지식에 대한 데이터를 학습하면, 성능에 오히려 부정적일 수 있다
      • 여기서 데이터를 총 4단계로 나누는데 (그림2) maybeknown까지 학습데이터로 쓰는게 좋다는 듯
      • 물론 unknown을 학습으로쓰면 테스트시 unknown에 대한 성능이 향상되긴함. 대신에 early stop을 해서 overfitting이 되는 것을 막아야함
  • 논문에서 쓴 fine-tuning은 ENTITYQUESTIONS 데이터세트인데, 아래의 예제이다
    • 입력: Who founded Science of Mind? / 출력: Ernest Holmes
  • 학습 템플릿에 없는 테스트 셋을 OOD 라고 하는데
    • (1) Unknown 비율이 높을수록 OOD 테스트 성능이 낮아지고 
    • (2) Unknown 예제는 OOD 성능에 해롭지만 주로 M이 그것들을 맞췄을 때 해롭습니다. 
  • 핵심 결과는 다음과 같다
    • MaybeKnown Examples are Essential.
    • Limited Knowledge Enhances Overfitting.

Abstract

  • 대형 언어 모델들이 감독된 미세 조정을 통해 정렬될 때, 사전 훈련을 통해 습득하지 못한 새로운 사실 정보를 접하게 될 수 있습니다. 
  • 이는 모델이 기존 지식에 기반하지 않은 사실을 생성하도록 훈련되기 때문에, 사실과 다른 응답을 생성하는 행동을 학습할 수 있다는 추측이 종종 제기됩니다. 
  • 본 연구에서는 이러한 새로운 지식에 대한 노출이 미세 조정된 모델이 기존 지식을 활용하는 능력에 미치는 영향을 연구합니다. 
  • 이를 위해 새로운 지식의 비율을 조절한 폐쇄형 질문 응답(Closed-book QA)을 중심으로 한 통제된 설정을 설계했습니다. 
  • 우리는 대형 언어 모델이 미세 조정을 통해 새로운 사실 지식을 습득하는 데 어려움을 겪는다는 것을 입증하였으며, 새로운 지식을 도입하는 미세 조정 예제는 모델의 지식과 일치하는 예제보다 훨씬 느리게 학습된다는 것을 발견했습니다. 
  • 그러나 새로운 지식을 포함한 예제가 결국 학습되면서 모델의 환각 경향이 선형적으로 증가하는 것도 발견했습니다. 
  • 종합적으로, 우리의 결과는 미세 조정을 통해 새로운 사실 지식을 도입하는 것의 위험성을 강조하며, 대형 언어 모델이 주로 사전 훈련을 통해 사실 지식을 습득하고 미세 조정은 이를 더 효율적으로 사용하는 방법을 가르친다는 관점을 지지합니다.

1 Introduction

  • 텍스트 코퍼스에 대한 사전 훈련은 대형 언어 모델(LLM)의 매개변수에 상당한 사실적 지식을 내재시키며, 이는 다양한 다운스트림 애플리케이션에서 우수한 성능을 발휘하는 데 필수적입니다(Petroni et al., 2019; AlKhamissi et al., 2022; Cohen et al., 2023). 
  • 이러한 모델들은 종종 원하는 행동에 맞추기 위해 추가적인 정렬이 필요하며, 이는 주로 지시를 따르는 작업에 대한 감독된 미세 조정과 인간 피드백을 통한 선호 학습을 통해 이루어집니다.
    • 미세 조정 단계에서는 모델이 인간 주석자나 다른 LLM이 생성한 출력에 대해 훈련됩니다. 
    • 결과적으로 모델은 사전 훈련 동안 습득한 지식을 넘어서는 새로운 사실 정보를 접할 수 있습니다. 
    • 여기서 fine-tuning은 alignment learning 단계를 의미하는 것인듯?
  • 이는 LLM이 기존 지식 외의 새로운 사실을 어떻게 통합하는지에 대한 의문을 제기합니다. 
    • 하나의 가능성은 모델이 이 새로운 사실 정보를 학습하여 단순히 적응하는 것입니다. 
    • 그러나 일반적인 추측은 이러한 새로운 지식에 대한 노출이 모델이 사실과 다른 응답을 생성하도록 장려할 수 있다는 것입니다. 
    • 이는 모델이 본질적으로 기존 지식에 기반하지 않은 사실을 생성하도록 훈련되기 때문입니다.
  • 본 연구에서는 미세 조정을 통해 새로운 사실 지식을 학습하는 것이 모델의 기존 지식에 대한 환각 경향에 어떤 영향을 미치는지를 탐구하여 위의 추측을 조사합니다.
  • 새로운 지식의 영향을 연구하기 위해서는 모델의 지식과 개별 미세 조정 예제가 일치하는지 평가할 수 있어야 합니다. 
  • 우리는 모델이 생성한 답변과 실제 정답 라벨 간의 일치를 정량화한 연속적인 척도로부터 도출된 네 가지 지식 범주의 계층 구조인 SliCK를 제안합니다. 
  • SliCK에서는 예제를 먼저 알려진(Known) 유형과 알 수 없는(Unknown) 유형으로 분류하며, 후자는 모델이 알지 못할 가능성이 높은 사실을 포함하는 예제에 해당합니다. 
  • 알려진 예제는 이후 세 가지 범주로 나뉩니다: 
    • 매우 잘 알려진(HighlyKnown), 다소 알려진(MaybeKnown), 그리고 약간 알려진(WeaklyKnown) (그림 2 참조).
    • temperature = 0이 greedy decoding인데, 이때도 다른 결과를 낼 때가 있나?
    • 즉 temperature=0인데 어떻게 때로는 정답이고 어떻게 때로는 정답이 아닌 결과를 내뱉는것이지?
  • 이 방법을 통해 우리는 폐쇄형 질문 응답(QA)에 중점을 둔 통제된 연구를 신중하게 설계하여, 알려지지 않은(Unknown)으로 분류된 미세 조정 예제의 비율을 변화시키면서 다른 요소들은 통제합니다. 
  • 우리의 연구는 알 수 없는(Unknown) 미세 조정 예제에서 학습하는 것이 모델의 기존 지식에 비해 환각의 경향성과 선형적으로 상관관계가 있음을 실증적으로 보여줍니다 (§4). 
  • 반대로, 알려진 예제에서 학습하는 것은 기존 지식을 더 잘 활용하는 것과 상관관계가 있습니다.
  • 훈련 동역학 분석을 통해 우리는 LLM이 알려진 예제보다 알 수 없는(Unknown) 미세 조정 예제를 훨씬 느리게 맞춘다는 것을 발견했습니다 (그림 1 상단). 
    • 즉 이미 LLM이 정답을 알고있는 경우에는 금방 학습이 되지만 LLM이 모르는 경우에는 학습이 천천히 된다.
    • 논문에서 주장하는 바는, 정답을 알때는 사전지식을 잘활용하게 되지만, 정답을 모르는 케이스에 대해 학습하면서 할루시네이션이 증가한다 인듯
  • 이는 미세 조정 동안 LLM이 새로운 사실적 지식(알 수 없는 미세 조정 예제에 존재하는)을 통합하는 데 어려움을 겪고, 대신 기존 지식을 노출하는 법을 주로 배우는 것을 나타냅니다.
    • 실용적인 관점에서, 조기 중단(그림 1의 세로 점선)을 사용하여 과적합을 완화하면 알 수 없는 예제를 맞춤으로 인해 발생하는 환각의 위험을 최소화할 수 있습니다. 
    • 이러한 환각은 주로 훈련 후반 단계에서 과적합의 형태로 나타나며 (그림 1 하단의 개발 성능 저하가 이를 보여줍니다). 
  • 대안으로, 알 수 없는 미세 조정 예제를 필터링하면 성능을 희생하지 않으면서 과적합의 위험을 크게 줄일 수 있음을 또한 보여줍니다.
  • 우리는 세 가지 알려진 지식 범주 각각의 미세 조정 예제가 성능에 미치는 영향을 추가로 평가합니다 (§5). 
    • 예상치 못하게도, 가장 높은 지식 정도를 나타내는 HighlyKnown 예제들로만 미세 조정된 모델이 최상의 결과를 내지는 않았습니다. 
    • 우리의 분석에 따르면, 더 낮은 정도의 확실성을 나타내는 MaybeKnown 미세 조정 예제를 포함하는 것이 테스트 시 이러한 예제를 적절히 처리하는 데 중요한 역할을 한다는 것을 보여줍니다. 
    • 이는 미세 조정 예제의 구성이 LLM이 기존 지식을 얼마나 효과적으로 활용하는지에 큰 영향을 미친다는 것을 나타냅니다.
  • 요약하면, 우리는 이 요소를 분리하는 통제된 설정을 설계하여 미세 조정 데이터에 포함된 새로운 사실적 지식의 효과를 연구했습니다. 
    • 새로운 지식을 도입하는 미세 조정 예제가 천천히 학습된다는 사실을 발견했는데, 이는 LLM이 미세 조정을 통해 새로운 지식을 통합하는 데 어려움을 겪고 있으며 LLM이 주로 사전 훈련을 통해 지식을 습득한다는 견해를 뒷받침합니다 (Zhou et al., 2023; Lin et al., 2023). 
    • 그러나 우리는 모델이 미세 조정을 통해 새로운 지식을 결국 학습하게 되면 기존 지식과 관련하여 환각을 일으키기 쉬워진다는 것도 발견했습니다.
    • 종합적으로, 우리의 발견은 새로운 지식을 미세 조정을 통해 도입할 때 발생할 수 있는 의도하지 않은 결과의 잠재력을 강조하며, 미세 조정이 기존 지식의 활용을 강화하는 메커니즘으로서 더 유용할 수 있음을 암시합니다.

2 Study Setup

  • 파인튜닝 데이터셋 D와 사전 학습된 대형 언어 모델(LLM) M이 주어졌을 때, D에서 M을 파인튜닝하여 얻은 모델을 MD라고 합니다. 
  • 새로운 지식 D가 MD의 성능에 미치는 영향을 연구하기 위해, M이 알지 못하는 예시의 비율이 다양한 D의 변형을 생성하여 통제된 설정을 설계합니다. 
  • D를 구성할 때, 다양한 지식 집약적 작업에 대한 명령어 튜닝을 반영하면서 실험 설정을 제어하는 것이 목표입니다. 
  • 따라서 (주어, 관계, 객체) 삼중항으로 구조화될 수 있는 사실적 지식에 중점을 두고 이를 클로즈드북 QA 형식으로 변환합니다. 
  • 이 설정에서 D = {(qi, ai)}N i=1이며, q는 특정 삼중항에 해당하는 지식을 요구하는 질문(예: “파리는 어디에 있습니까?”)이고 a는 정답(예: “프랑스”)입니다. 
    • 즉 여기서 q는 질문으로 "파리는 어디에 있습니까?"와 같은 것
    • a는 답변으로 "프랑스"와 같은 것
    • 여기서 주어=파리, 어디에=관계, 객체=프랑스가 되는 것
  • 이를 위해 ENTITYQUESTIONS(Sciavolino et al., 2021)을 사용하며, Wikidata(Vrandeciˇ c and Krötzsch, 2014)의 다양한 관계에서 삼중항을 QA 쌍으로 변환합니다. 
  • 이러한 관계는 전기 정보, 지리 데이터, 소유권 및 저작권 세부 정보, 역사 등 광범위한 사실적 지식을 포함합니다. 
  • 우리는 원본 개발 및 테스트 분할을 사용하고, 훈련 분할을 서브 샘플링하여 D의 다양한 변형을 생성합니다. 
  • 12개의 다양한 관계에 중점을 두고, §4.5에서만 사용되는 분포 외 테스트 세트를 위해 7개의 추가 관계를 예약합니다. 
  • M으로서 PaLM 2-M 기본 모델(Anil et al., 2023)을 사용합니다. 
  • 평가 메트릭으로는 정확한 일치(EM)에 중점을 둡니다. 
  • 전체 기술 세부 사항은 §A에 있습니다.

3 Quantifying Knowledge in LLMs

  • D에 있는 새로운 지식이 MD의 성능에 미치는 영향을 평가하기 위해, D의 각 (q, a) 쌍을 M이 해당 질문 q의 답이 a임을 알고 있는지 여부에 따라 주석을 달아야 합니다. 
    • fine-tuning할 데이터세트에서 LLM이 원래 알고있는건지 아닌건지를 판단하자.
  • 이를 추정하기 위해, 우리는 M의 샘플을 기반으로 연속적인 PCorrect 측정을 정의하고 이를 사용하여 (q, a) 쌍을 네 가지 지식 범주로 나눕니다. 
  • 우리는 이 접근 방식을 SliCK(Sampling-based Categorization of Knowledge)이라고 명명합니다.
  • PCorrect 정의하기. 
    • 우리는 M이 q에 대한 답으로 a를 생성할 때, M이 q의 답이 a임을 알고 있다고 간주합니다(Kadavath et al., 2022; Manakul et al., 2023). 
    • M은 명령을 따르도록 특별히 파인튜닝되지 않은 기본 모델이기 때문에, 몇 가지 예시를 사용한 인컨텍스트 학습을 통해 M을 프롬프트합니다. 
    • Rubin et al.(2022)을 따라, 우리는 몇 가지 예시가 q와 높은 의미적 유사성을 가지도록 합니다.
    • 실제로, M은 다른 답변을 예측할 수 있습니다. 
      • 이는 (1) 예시 선택이 개별 예측에 영향을 미치고, 
      • (2) 온도 샘플링이 사용될 경우 무작위성을 도입하기 때문입니다. 
      • 이를 반영하기 위해, 우리는 PCorrect(q, a; M, T)를 q에 대한 올바른 답변 a를 M이 정확하게 생성할 가능성의 추정치로 정의합니다. 
      • 여기서 무작위 몇 가지 예시를 프롬프트하고 디코딩 온도 T를 사용하는 경우를 가정합니다.
      • zero-shot이 아닌 few-shot이기 때문에 greedy decoding이여도 값이 다른 경우가 존재하는군
    • 우리 연구의 목적을 위해, 우리는 Nex = 10개의 다른 무작위 4-shot 프롬프트를 사용하여 PCorrect 값을 근사합니다. 
      • 각 4-shot 프롬프트에 대해, T = 0을 사용하여 탐욕적(greedy) 답변을 예측하고, T = 0.5를 사용하여 16개의 샘플링된 답변을 예측합니다. 
      • PCorrect(q, a; M, T = 0)는 올바른 탐욕적 답변의 비율로 추정하고, PCorrect(q, a; M, T > 0)는 올바른 샘플링된 답변의 비율로 추정합니다. 
    • 전체 세부 사항은 §C에 있습니다.
  • PCorrect에서 지식 카테고리 도출하기. 
    • 우리는 M이 q에 대한 올바른 답변을 절대 예측하지 않는 (q, a) 쌍을 나타내기 위해 Unknown 카테고리(그림 2a와 2b의 맨 아래 행)를 정의합니다.
    • 우리의 표기법에서는 이것이 PCorrect(q, a; M, T ≥ 0) = 0임을 의미합니다. 
    • 반면, PCorrect(q, a; M, T ≥ 0) > 0, 즉 M이 가끔 q에 대한 올바른 답변을 예측하는 경우, (q, a)를 Known으로 간주합니다. 
    • 이는 M이 q에 대한 답변을 가끔 올바르게 예측할 수 있다면, 해당 사실과 관련된 일부 연관성이 M에 존재한다고 가정합니다.
    • 지식이 확실성과 정도에 따라 다를 수 있음을 인식하여, Known (q, a) 쌍을 세 가지 구별된 카테고리로 나눕니다(표 2a와 2b의 상위 세 행). 
    • (q, a)가 Known이라면, M이 일관되게 a를 예측해야 한다는 원칙에 따라, 우리는 탐욕적 디코딩 결과, 즉 PCorrect(q, a; M, T = 0)에 중점을 둡니다.
    • HighlyKnown은 M이 항상 탐욕적으로 a를 예측하는 (q, a) 쌍을 나타냅니다. 
    • M이 때때로(하지만 항상은 아님) 탐욕적으로 a를 예측하는 경우, (q, a)를 MaybeKnown으로 간주합니다. 
    • 마지막으로, M이 탐욕적으로 a를 절대 예측하지 않는 경우, (q, a)를 WeaklyKnown으로 분류합니다. 
  • 우리는 SliCK을 적용하여 데이터셋의 각 (q, a) 쌍을 M에 대한 지식 카테고리로 주석을 달았습니다. 
  • 이 카테고리의 품질을 §6에서 분석합니다.

4 How Harmful are Unknown Examples?

  • 이 섹션에서는 미세 조정 데이터셋 D에서 새로운 지식의 효과를 성능에 미치는 영향을 연구합니다.
  • 이 효과를 고립시키기 위해, 우리는 D에서 Unknown 예제의 비율을 변화시키면서 다른 요소들을 통제합니다. 
  • 구체적으로, 우리는 |D|를 고정하고 X%의 Unknown 예제와 (100 - X)%의 Known 예제로 구성된 D의 변형을 만듭니다(자세한 내용은 §E 참조). 
  • 우리는 Known 카테고리들을 집합적으로 취급하며(그림 2a 참조), §5에서 카테고리별 분석을 제공합니다. 
  • 개발 세트를 기반으로 한 조기 종료를 EARLY_STOP이라고 하며(5-10 에포크 후 발생), 50 에포크 동안의 미세 조정을 CONVERGENCE라고 합니다. 
    • 이 시점에서 M은 항상 D를 완전히 맞추기 때문에(즉, 100% 훈련 정확도) CONVERGENCE로 간주합니다. 
  • 우리는 훈련/테스트 분할이 분리된 폐쇄형 QA 설정에서 모델이 테스트 질문에 답하기 위해 기존 지식을 사용해야 하므로 테스트 성능을 환상(정답이 아닌 답변)으로 측정합니다(자세한 내용은 §B 참조).

4.1 Higher Unknown Ratio is Proportional to Performance Degradation

  • 그림 3a는 서로 다른 미세 조정 기간 동안 D에서 Unknown 예제의 비율에 따른 성능을 나타냅니다. 
  • %Unknown이 높아질수록 성능이 저하되는데, 이는 미세 조정 기간과 관계없이 Unknown 예제가 Known 예제보다 덜 유용하다는 것을 나타냅니다. 
  • 성능은 미세 조정 기간에 따라서도 크게 영향을 받으며, EARLY_STOP이 일반적으로 최고의 성능을 보입니다. 
  • 더 많은 에포크 동안 훈련하는 것은 대개 성능을 저하시키며(CONVERGENCE에서 가장 낮은 성능이 관찰됨), 이는 D에 대한 과적합에 기인할 수 있습니다. 
  • 흥미롭게도, 이 효과는 %Unknown이 클수록 증가하는데(EARLY_STOP의 인터라인 간격이 양의 x축을 따라 단조 증가함), 이는 %Unknown이 높을수록 과적합의 위험이 증가함을 시사합니다.

4.2 Unknown Examples: Harmful or Neutral?

  • |D|가 고정된 상태에서, 더 높은 %Unknown 비율로 인해 성능이 저하되는 이유는 단순히 Known fine-tuning 예제 수가 줄어들었기 때문일 수 있습니다. 
  • 따라서 Unknown 예제들이 해로운지 중립적인지 여부는 여전히 명확하지 않습니다. 
  • 이를 해결하기 위해, D에서 모든 Unknown 예제를 필터링하여 그 영향을 측정합니다.
  • 각 D 변형에 대해, D에 있는 Known 예제만 포함하는 해당 변형 DKnown을 만듭니다.
  • 예를 들어, D에 25%의 Unknown이 있는 경우, 이를 필터링하여 나머지 75%의 Known 예제만 남기고 |DKnown| = 0.75 × |D|가 됩니다. 
    • 예) unknown 40%의 Dknown은 |D|의 60%만 사용했다는 것
  • Figure 3b는 결과를 보여줍니다. 
  • 아마도 놀랍게도, EARLY_STOP의 경우 D와 DKnown의 결과가 거의 동일하여 Unknown 예제가 성능에 중립적인 영향을 미쳤음을 나타냅니다(제거해도 성능에 거의 영향을 미치지 않음). 
  • 반면, CONVERGENCE 결과는 더 긴 훈련 시간 동안 Unknown 예제가 실제로 매우 해롭다는 것을 보여줍니다. 
  • 이 경우 D는 DKnown보다 성능이 떨어지며, 그 차이는 Unknown 비율에 비례합니다. 
  • 흥미롭게도, DKnown의 경우 EARLY_STOP과 CONVERGENCE 간의 차이가 매우 작습니다(점선), 반면 D의 경우 이 차이가 매우 큽니다(실선). 
  • 이는 Unknown 예제의 존재가 Unknown 비율이 높은 변형을 과적합에 더 취약하게 만든다는 것을 나타냅니다.
  • 즉 데이터세트에, unknown 이 있으면 성능이 하락하게 되는데..
    • early stop을 하면 이 하락정도를 최소화할 수 있다고 보면 되고
    • 만약 unknown만으로 학습하면, early stop없어도 비슷한 성능으로 수렴하는 느낌

4.3 Unknown Examples are Fitted Slower than Known Examples 

  • 우리는 Unknown 예제들이 해롭다는 것을 보여주었지만, 그 부정적인 영향은 주로 훈련 후반 단계에서 나타나며, 따라서 조기 중단(early stopping)을 사용하여 경험적으로 이를 피할 수 있습니다. 
  • 이러한 경향을 더 잘 이해하기 위해, D의 다양한 fine-tuning 단계에서 M이 맞춘 fine-tuning 예제들을 분석하여 훈련 역학을 살펴봅니다. 
  • Figure 1은 fine-tuning 기간에 따른 D의 Known 및 Unknown 부분집합의 훈련 정확도를 보여줍니다. 
  • 개발 정확도는 좁은 범위 내에 있으므로 하단에 확대된 그래프로 표시됩니다. 
  • 각 Known 카테고리별 훈련 정확도의 세부 내역은 §F에 포함되어 있습니다.
  • M은 Unknown fine-tuning 예제를 Known 예제보다 상당히 느리게 맞춥니다. 
  • EARLY_STOP(수직 점선)에서는 M이 개발 세트에서 최고 성능에 도달하며, 대부분의 Known 예제를 맞췄지만 Unknown 예제의 일부만 맞췄습니다. 
  • Figure 4는 이러한 행동이 D의 모든 변형에서 일관되게 나타난다는 것을 보여줍니다. 
  • 이는 EARLY_STOP에서 Unknown 예제가 성능에 중립적인 영향을 미친 이유를 설명할 수 있습니다(§4.2). 
  • 이 시점에서 M은 대부분의 Unknown 예제를 아직 맞추지 않았기 때문입니다. 
  • 마지막으로, Unknown 예제는 새로운 사실 지식을 도입할 가능성이 높은 예제들인데, 이들의 상당히 느린 적합 속도는 LLM이 fine-tuning을 통해 새로운 사실 지식을 습득하는 데 어려움을 겪고 있음을 시사합니다. 
  • 대신, Known 예제를 통해 이미 존재하는 지식을 노출하는 법을 배우고 있습니다.
  • 그림4의 성능은, train 셋에 대한 성능인거 같음
    • y축을 보면, 학습셋에 unknown의 비율이고
    • 가로 막대에서 known는 진한색(fit, 맞췄다)으로 많이 차있고, unknown은 not fit으로 채워져있음
    • 즉 known 예제는 이미 알고있는 것이기 때문에, 학습단계에서 이미 가지고 있는 지식을 결합하는걸 금방 배운다
    • 대신 unknown은 천천히 학습된다는 것
    • 설명보면 known이라고 greedy decoding으로 항상 100% 성능은 아니긴 하지만
      • known은 애초에 few-shot으로 정답을 알기 때문에 학습과 상관없이 성능이 100%에 가까이 나오느거 아닌가?
      • 테스트할때는 어떤 few-shot을 쓰는건지에 따라 성능차가 있을거 같기도..

4.4 The Influence of Unknown vs Known on Accuracy: A Linear Model Perspective

  • Figure 1은 EARLY_STOP(수직 점선)에서 개발 성능이 최고조에 달한 후, M이 점차 더 많은 Unknown 예제를 맞추면서 성능이 저하되는 것을 보여줍니다. 
    • 즉 학습할수록 unknown을 더 fit하게 되나 dev 성능 자체는 떨어짐
  • 이 섹션에서는 Known 및 Unknown 훈련 예제를 맞추는 것이 테스트 정확도에 미치는 영향을 단순한 선형 의존성으로 설명할 수 있는지 평가하여 이 관계를 더 정확하게 특성화하고자 합니다. 
  • 이를 위해 다음 선형 회귀 모델을 사용합니다:
    • 여기서 \(N_{Kn}\)과 \(N_{Unk}\)는 모델 \(M\)이 맞춘 D 내의 Known 및 Unknown 예제의 수를 나타냅니다. 
  • 우리는 모든 D 변형에서 fine-tuning된 모델들로부터 각 epoch마다 (정확도, \(N_{Kn}\), \(N_{Unk}\)) 값을 수집하여 계수들을 추정합니다. 
  • Table 1은 결과를 보여줍니다(상단 행). 
    • 즉 bunk는 음수인걸로 봐서 unk을 맞출수록 성능이 떨어진다는 것으로 성능을 정의함
  • 높은 \(R^2\) 값은 테스트 정확도와 맞춘 훈련 예제 유형 간의 강한 선형 관계를 나타냅니다. 
  • 우리 모델은 Unknown 예제를 맞추는 것이 성능에 해롭다는 것을 의미합니다(\(\beta_{unk} < 0\)), 반면 Known 예제를 맞추는 것은 성능을 향상시킵니다(\(\beta_{kn} > 0\)). 
  • 추정된 Unknown의 부정적 영향은 대략 Known의 긍정적 영향과 일치합니다(\(|\beta_{unk}| \approx |\beta_{kn}|\)).

4.5 Generalization to New Relations

  • 위의 설정에서, 테스트 세트의 (q, a) 쌍은 D에 나타나는 동일한 12개의 관계를 가진 삼중 항목에 해당합니다. 
  • 이제 관찰된 동적 특성이 모델의 지식에 더 넓은 영향을 미치고 D에 나타나지 않은 관계로도 전이되는지 조사합니다. 
  • 이를 테스트하기 위해, 우리는 훈련 및 개발 분할에서 제외된 관계의 하위 집합을 비분포(out-of-distribution, OOD) 테스트 세트로 예약합니다. 
  • 세부 사항은 §A와 Table 4 및 Table 5의 in-distribution vs OOD 관계를 참조하십시오.
  • OOD 테스트 세트에 대한 결과는 다음과 같은 주요 통찰을 보여줍니다: 
    • (1) Unknown 비율이 높을수록 OOD 테스트 성능이 낮아지고 
    • (2) Unknown 예제는 OOD 성능에 해롭지만 주로 M이 그것들을 맞췄을 때 해롭습니다. 
    • OOD 테스트 정확도의 선형 모델(방정식 (1))도 유사한 경향을 보여줍니다: \(\beta_{unk} < 0\), \(\beta_{kn} > 0\), \(|\beta_{unk}| \approx |\beta_{kn}|\), 그리고 \(R^2 = 0.95\) (Table 1 참조). 
    • 더 자세한 내용은 §H에 있습니다.
    • question template이 다른 테스트셋 (학습셋에 없는) 에 대한 평가를 OOD라고 하는 듯
    • OOD 템플릿에서 unknown의 비율이 높을수록 학습된 모델의 성능이 낮아진다고 하는 듯
  • 전체적으로, 우리의 통찰은 관계 전반에 걸쳐 전이됩니다. 
    • 이는 본질적으로 "Where is [E1] located?"와 같은 Unknown 예제에 대한 fine-tuning이 "Who founded [E2]?"와 같은 겉보기에 관련이 없는 질문에 대한 환각(hallucinations)을 유도할 수 있음을 보여줍니다. 
    • 이는 관찰된 효과가 모델이 기존 지식에 기반하지 않은 답변을 생성하는 행동을 학습하는 데서 비롯되었을 가능성을 더욱 뒷받침합니다.

5 Understanding Knowledge Types: Their Value and Impact

  • 우리의 주요 연구 질문인 미지의 파인 튜닝 예제의 효과에 대해 다룰 때, 우리는 단순화를 위해 알려진 카테고리들을 집합적으로 처리했습니다(그림 2a 참조). 
  • 이제 각 카테고리의 영향을 검토하면서 다음 질문들을 탐구합니다:
    • Q1: 각 카테고리의 훈련 예제가 테스트 성능에 어떻게 영향을 미치는가?  
    • Q2: 각 카테고리의 테스트 예제에 대한 모델의 성능은 어떤가?  
  • Q1을 해결하기 위해 우리는 파인 튜닝 데이터셋 D의 단일 카테고리 변형을 만들었습니다. 
  • CAT 카테고리의 예제들로만 구성된 D의 변형은 DCAT로 표시됩니다. 
  • 참고로, ENTITYQUESTIONS의 자연스러운 카테고리 분포를 포함한 변형은 DNatural로 표시됩니다. 
  • |D|는 §4의 실험과 동일하게 고정되어 있습니다. 
  • Q2를 해결하기 위해 우리는 테스트 세트 성능을 카테고리별로 더 세분화했습니다. 
  • 표 2는 그 결과를 제시합니다.
    • 표 2: §5의 단일 카테고리 변형에 대한, 테스트 세트의 카테고리별 하위 집합에 따른 정확도. Full은 원래의 테스트 세트(모든 카테고리를 포함)를 의미합니다. Hkn=HighlyKnown, Mkn=MaybeKnown, Wkn=WeaklyKnown, Unk=Unknown을 나타냅니다. 각 열에서 최고의 결과는 굵게 표시되며, 최고의 결과와 통계적으로 유의미한 차이가 없는 결과도 p < 0.05 (유의미성 테스트 세부사항은 §I에 있음)를 기준으로 굵게 표시됩니다.
  • MaybeKnown Examples are Essential.
    • Unknown 예제는 해로울 수 있으므로 가장 모범적인 HighlyKnown 예제로 파인 튜닝하는 것이 최선일 것이라고 예상할 수 있습니다. 
    • 놀랍게도, DHighlyKnown은 HighlyKnown 테스트 예제에서는 뛰어난 성능을 보이지만, 나머지 카테고리에서는 성능이 떨어지기 때문에 전체적인 결과는 최상이 아닙니다. 
    • DMaybeKnown은 전체적으로 최고의 성능을 보여줍니다. 
    • DHighlyKnown과 비교했을 때, DMaybeKnown은 MaybeKnown에 대한 MD의 성능을 향상시킵니다(60.1 → 69.9), 동시에 HighlyKnown에 대한 성능은 저하되지 않습니다(98.7 → 98.4). 
    • 이는 MaybeKnown 파인 튜닝 예제가 MD가 추론 시 이러한 예제를 올바르게 처리하는 데 필수적임을 시사합니다. 
    • 또한, 적절한 파인 튜닝 예제를 통해 MD가 기존 지식을 더 잘 활용할 수 있게 됨을 보여줍니다.
  • Limited Knowledge Enhances Overfitting.
    • §4.2에서 우리는 Unknown 파인 튜닝 예제가 과적합의 위험을 증가시킨다는 것을 입증했습니다. 
    • 이제 우리는 이것이 WeaklyKnown에도 적용되지만, 정도는 더 적다는 것을 관찰합니다. 
    • 구체적으로, CONVERGENCE에서는 DWeaklyKnown과 DUnknown이 EARLY_STOP에 비해 상당한 성능 저하를 경험합니다(39.2 → 35.4 및 37.5 → 25.8). 
    • CONVERGENCE로의 훈련에서는 WeaklyKnown과 Unknown에서 약간의 향상이 있지만, HighlyKnown과 MaybeKnown에서는 성능이 크게 저하됩니다. 
    • 이는 성능 저하가 사전 학습 후 M에게 이미 알려진 사실에 대한 환각 비율 증가와 강하게 관련됨을 강조합니다.
  • 흥미롭게도, DNatural은 EARLY_STOP에서 DMaybeKnown과 동등한 성능을 보입니다.
  • 이는 D에 MaybeKnown 예제가 존재하는 것만으로도 MaybeKnown에서 높은 성능을 내기에 충분함을 시사합니다, D에 다른 카테고리의 추가 예제가 있더라도 말입니다. 
  • 그러나 DNatural의 성능은 CONVERGENCE 후에 크게 저하되어 DMaybeKnown보다 저조합니다. 
  • 이는 여전히 WeaklyKnown 및 Unknown 예제의 존재로 인해 과적합이 발생할 가능성이 높음을 나타냅니다. 
  • 이러한 결과를 종합하면 DMaybeKnown이 최고의 성능과 과적합 위험 감소 측면에서 두드러진다는 것을 보여줍니다. (결론)

6 SliCK Knowledge Categories Analysis

  • 모델의 지식을 평가하는 것은 여전히 어려운 문제입니다. 
  • 특히 이러한 방법들의 품질을 평가하기 어려운 이유는 모델이 실제로 무엇을 알고 있는지에 대한 명확한 근거가 부족하기 때문입니다. 
  • 이번 연구에서는 SliCK(§3)을 제안했습니다. 
  • SliCK은 모델의 지식에 대한 사실을 네 가지 카테고리로 분류합니다. 
  • 이제 SliCK이 미래 연구에 유용한 분류법이 될 수 있기를 바라며, 우리의 설계 선택에 대해 더 자세히 분석하고 논의합니다.
  • Fine-grained Known Categories
    • 우리는 Known을 더 세분화된 카테고리로 나누는 선택이 의미 있는지에 대해 먼저 반성합니다. 
    • Table 2에 나타난 바와 같이, HighlyKnown은 높은 정확도를 보여줍니다. 
    • 파인 튜닝 후 일관되게 95% 이상의 정확도를 유지하며, 이는 높은 지식 수준을 포착합니다. 
    • 반면, MaybeKnown과 WeaklyKnown은 더 낮은 지식 수준을 나타내는 것 같습니다. 
    • 의도한 대로, WeaklyKnown의 성능은 MaybeKnown보다 낮지만 Unknown보다는 높습니다. 
    • 또한, 우리가 만든 정확한 카테고리 구분은 MaybeKnown 파인 튜닝 예제의 중요성에 대한 중요한 통찰을 밝혀내어 유용한 것으로 입증되었습니다(§5에서 자세히 논의).
  • Benchmarking Unknown Test Examples
    • 테스트 세트에 나타나는 Unknown으로 분류된 (q, a) 쌍의 바람직한 속성은 파인 튜닝 후 M이 q에 대해 잘못된 답변을 해야 한다는 것입니다(그렇지 않으면 실제로 Unknown이 아닙니다). 
    • Table 2에서 볼 수 있듯이, Unknown의 정확도는 매우 낮습니다(3.2% 이하). 
    • 이는 대부분의 Unknown 예제가 실제로 M에게 알려지지 않았다는 강력한 지표입니다.
  • 비교 사례 연구로 Kadavath et al. (2022)의 P(True) 접근 방식을 분석합니다. 
  • P(True)는 모델이 특정 답변의 정확성에 부여하는 확률을 추정하는 연속 점수입니다.
  • P(True)는 원래 모델 생성 답변을 자기 평가하는 데 사용되었지만, 우리는 M이 정답을 올바르게 여기는지를 평가하는 데 사용합니다. 
  • Figure 5에서는 P(True) 임계값 이하의 예제를 Unknown으로 분류하는 방법과 SliCK을 비교합니다. 
  • 우리의 결과는, 적어도 우리의 설정에서는, 파인 튜닝 후 모델의 성능이 크게 떨어지는 Unknown 예제를 SliCK이 더 잘 분류함을 보여줍니다. 
  • 구체적으로, x축의 고정 값을 보면, 두 방법을 사용하여 유사한 비율의 테스트 예제를 Unknown으로 레이블링하면, 파인 튜닝 후 P(True) 기반 Unknown 예제의 정확도가 훨씬 높습니다. 
  • 마지막으로, 다중 몇 샷 프롬프트에서 샘플을 사용하여 PCorrect를 근사하는 것이 중요하다는 것을 파란 선이 보여줍니다. 
  • Nex < 10을 사용하면 SliCK Unknown 예제의 테스트 정확도가 더 높아집니다.

7 Discussion

  • Practical Implications.
    • 이 연구는 감독된 파인 튜닝을 통해 대형 언어 모델(LLM)의 지식을 업데이트하는 데 따르는 위험을 강조합니다. 우리는 파인 튜닝을 통해 새로운 지식을 획득하는 것이 기존 지식에 대한 환각과 관련이 있다는 실험적 증거를 제시합니다. 또한, 이 연구는 파인 튜닝 관행에 대한 중요한 질문을 제기합니다. 
    • 우리는 Unknown 예제가 Known 예제보다 더 느리게 학습된다는 것을 확인했습니다. 따라서 이들의 부정적인 영향은 과적합의 형태로 나타나며, 이는 고정된 파인 튜닝 단계 수 대신 조기 중지를 사용하는 것이 중요함을 강조합니다. 그러나 조기 중지는 여러 작업을 각각의 최적 중지점으로 파인 튜닝할 때 덜 효과적일 수 있습니다. 
    • 대안으로, Unknown 예제를 필터링하여 파인 튜닝 데이터를 모델의 지식과 맞추는 방법이 있습니다. 우리는 이러한 접근이 성능을 저하시키지 않고 과적합 위험을 줄일 수 있다는 초기 증거를 제시합니다. 필터링의 단점은 Unknown 파인 튜닝 예제가 LLM이 Unknown 테스트 예제에서 불확실성을 표현하도록 가르치는 데 여전히 유용할 수 있다는 점입니다(Zhang et al., 2023). 
    • 이는 Unknown 파인 튜닝 예제를 불확실성 표현(예: "모르겠다")으로 재표기하면 부정적인 효과를 줄일 수 있는지에 대한 질문을 제기합니다. 우리의 초기 실험(§K에 설명됨)은 그 답이 '예'임을 시사하며, 이러한 접근이 가장 유망할 수 있음을 나타냅니다. 이를 탐구하는 것은 미래 연구에서 흥미로운 방향이 될 것입니다.
  • Superficial Alignment Hypothesis.
    • Zhou et al. (2023)은 LLM의 지식과 능력이 주로 사전 훈련 동안 학습되며, 정렬은 사용자의 상호 작용 스타일이나 형식을 배우는 단순한 과정이라고 가정했습니다. 
    • 그들은 단지 1,000개의 고품질 예제로 파인 튜닝한 결과 경쟁력 있는 보조 LLM, LIMA를 만들 수 있음을 보여 이 가설을 뒷받침합니다. §4.3에서 논의된 바와 같이, 우리는 LLM이 Unknown 예제에 있는 새로운 지식을 습득하는 데 어려움을 겪으며 주로 기존 지식을 활용하는 방법을 학습한다는 증거를 제시합니다. 또한, HighlyKnown 예제로 파인 튜닝하는 것이 기존 지식의 최적 활용에 실패함을 보였습니다. 이는 LIMA의 작업 형식보다 간단하고 데이터셋이 여섯 배 더 큰 경우에도 그렇습니다. 
    • 종합적으로, 우리의 연구 결과는 LLM의 지식 대부분이 실제로 사전 훈련을 통해 획득되지만, 파인 튜닝을 통해 모델이 단순히 스타일이나 형식 이상의 것을 학습하며, 파인 튜닝 예제 선택이 모델의 기존 지식을 파인 튜닝 후에 활용하는 능력에 크게 영향을 미친다는 것을 시사합니다.

8 Related Work

  • New knowledge and hallucinations.
    • Schulman (2023), Goldberg (2023), Gudibande et al. (2023)은 새로운 사실 지식에 대한 파인 튜닝이 환각을 유발할 수 있다는 가설을 언급합니다. Huang et al. (2023)은 환각 원인을 분류하고 이 시나리오를 능력 불일치로 정의했습니다. 그들은 LLM의 지식 경계를 정의하는 문제 때문에 능력 불일치를 다루는 연구가 제한적이라고 강조합니다. Kang et al. (2024)은 파인 튜닝된 LLM이 테스트 시에 알려지지 않은 쿼리에 직면했을 때, 파인 튜닝 데이터의 Unknown 예제와 관련된 응답을 모방한다고 보여주었습니다. Yin et al. (2023)은 LLM이 입력 컨텍스트에서 새로운 지식에 직면했을 때 성능이 만족스럽지 않다는 것을 보여주었으며, Lee et al. (2023)은 in-context 학습 예제의 Unknown이 미치는 영향을 분석했습니다. 우리가 알기로는, 우리의 연구는 파인 튜닝을 통해 새로운 지식에 노출되는 것이 파인 튜닝된 모델의 환각 경향에 미치는 영향을 실증적으로 평가한 최초의 연구입니다.
  • Quantifying knowledge in LLMs.
    • SliCK은 정답 레이블에 대한 신뢰를 이끌어내는 방법으로 볼 수 있습니다(M이 q에 대한 a가 정답임을 자신 있다고 판단하면 그것을 알고 있음). 기존 연구에서는 여러 샘플의 일치를 조사하여 LLM에서 보정된 신뢰도를 도출합니다(Kuhn et al., 2023; Manakul et al., 2023; Tian et al., 2023a; Lyu et al., 2024), 내부 표현을 탐색합니다(Azaria and Mitchell, 2023; Burns et al., 2022), 언어화된 확률을 유도합니다(Tian et al., 2023b) 또는 직접 프롬프트를 사용합니다(Kadavath et al., 2022). Kadavath et al.은 또한 LLM이 q에 대한 답을 알고 있는지 예측하는 별도의 P(IK) 모델을 훈련했습니다. P(IK)의 레이블은 정답 샘플의 비율로 근사화되었으며, 이는 개념적으로 PCorrect와 일치합니다(§3). 주요 차이점은 우리가 SliCK 카테고리를 정의하고, 의미 있고 유용한 카테고리를 포착한다는 증거를 제공한다는 점입니다.

9 Conclusion

  • 우리는 파인 튜닝을 통해 새로운 사실 지식을 통합하는 것이 모델의 환각 경향에 미치는 영향을 연구합니다. 
  • 먼저 SliCK을 제안합니다. SliCK은 LLM의 지식에 대한 사실 분류입니다. 그 다음, 새로운 지식의 영향을 고립시키고 그 효과를 엄격하게 평가하는 통제된 연구를 설계합니다. 우리는 파인 튜닝 역학에 대해 여러 통찰을 제공하며, 다음과 같은 주요 발견을 제시합니다: (1) 감독된 파인 튜닝을 통해 새로운 지식을 습득하는 것은 기존 지식에 대한 환각과 상관관계가 있습니다. (2) LLM은 파인 튜닝을 통해 새로운 지식을 통합하는 데 어려움을 겪으며 주로 기존 지식을 활용하는 방법을 학습합니다.

Reference

댓글