NL-192, Large Language Models Are Reasoning Teachers, ACL 2023

◼ Comment

  • 이 논문은 Distilling step-by-step과 상당히 유사하다?
    • 핵심은 LLM에서 추출한 rationale을 small model에 학습하도록 distillation하면 성능이 좋아진다는 것이다.
    • 물론 Distilling step-by-step과 적용하는 방법은 다르다.
  • rationale을 추출하여 이를 적용하는 방법에 대해 광범위한 벤치마크와 다양한 방법으로 시도한다.
    • 기억하면 좋을점은 multi-rationale을 학습에 사용하면 좋다는 것이다.
    • 여기서 input+rationale+answer이 하나의 인스턴스가 되는 형태인데,
    • rationale만 여러 가지로 바꿔서 각 인스턴스를 모두 학습하면 성능이 향상된다는 주장이다.
    • 근데 하나의 인스턴스로 multi-rationale을 결합하게 하는 방법은 없을까?하는 의문은 든다.
    • 이러한 방법을 Fine-tune-CoT라고 부른다.
    • 또한 rationale을 추출할 때, 같이 나온 answer이 진짜 answer인 경우만 학습데이터로 사용하는거 같은데 이러면 원래 학습데이터의 손실이 있을거 같은데.. 이 부분에 대한 분석은 없다.
    • multi-rationale을 만드는데 결국 teacher LLM을 인퍼런스해야하니까 비용이 더 든다는 trade-off가 있긴하다.
  • 아무튼 그래도 LLM으로 추출한 rationale을 small model에 결합해볼 때, 이 논문은 좋은 reference가 될 것 같음!

0 Abstract

  • 최근 연구에서는 chain-of-thought (CoT) 프롬프팅이 언어 모델이 복잡한 추론 작업을 단계별로 해결하도록 유도할 수 있다는 것을 보여주었습니다. 
  • 그러나 프롬프트 기반 CoT 방법은 대규모 모델인 GPT-3 175B와 같은 모델에 의존하며 대규모 배포가 어렵습니다. 
  • 본 논문에서는 이러한 대규모 모델을 reasoning teachers로 활용하여 작은 모델에서 복잡한 추론을 가능하게 하고 모델 크기 요구 사항을 여러 배 줄이는 방법을 제안합니다. 
  • 우리는 Fine-tune-CoT이라는 방법을 제안하는데, 이 방법은 대규모 교사 모델에서 추론 샘플을 생성하여 작은 모델을 미세 조정합니다. 
  • 우리는 다양한 공개 모델과 복잡한 작업에 대해 우리의 방법을 평가합니다. 
  • Fine-tune-CoT은 작은 모델에서 상당한 추론 능력을 가능하게 하며, 많은 작업에서 프롬프트 기반 기준선과 심지어 교사 모델을 능가합니다. 
  • 또한 교사 모델이 각 원본 샘플에 대해 여러 다른 근거를 생성할 수 있는 능력을 활용하여 우리의 방법을 확장합니다. 
  • 이러한 다양한 추론을 미세 조정 데이터로 확장하면 데이터셋 전반에서 상당한 성능 향상이 나타납니다. 
  • 심지어 아주 작은 모델의 경우에도 해당합니다. 
  • 우리는 학생 모델의 추론 능력의 출현을 이해하기 위해 제거 실험 및 샘플 연구를 수행합니다.

1 Introduction

  • LMs은 다양한 하위 작업에서 놀라운 성능을 보였습니다. 
  • 최근에는 대형 언어 모델(LLMs)이 몇 가지 문맥 내 예제나 자연어 작업 설명에 기반하여 하위 작업을 수행하는 능력을 보여주었습니다. 
  • 그러나 이러한 발전에도 불구하고, 가장 큰 LLM들조차도 여러 추론 단계를 필요로 하는 복잡한 작업에서 어려움을 겪는 것으로 확인되었습니다 (Rae et al., 2021).
  • 최근 연구들은 복잡한 작업을 해결하기 위해 LLMs에게 chain-of-thought(CoT) 능력을 유도할 수 있다는 것을 보여주고 있습니다. 
  • 즉, 중간 추론 단계의 연속을 생성하도록 LLMs에게 프롬프팅을 지시하는 것입니다. 
    • 이것은 Wei et al. (2022b)에 따르면 CoT 데모를 프롬프팅의 예시로 제공함으로써 달성할 수 있습니다. 
      • Chain of thought prompting elicits reasoning in large language models
      • 문제를 풀어나가는 과정을 few-shot으로 주는 것
    • 더 최근에 Kojima et al. (2022)는 LLMs에게 단계별로 생각하라는 자연어 명령을(think step-by-step) 제공함으로써 CoT 추론을 수행하도록 유도할 수 있다는 것을 발견했습니다.
      • Large language models are zero-shot reasoners.
      • instruction에 think step-by-step을 넣어서 풀어나가는 과정을 생성하게 하는 것
  • 그러나 프롬프트 기반의 CoT 추론 방법의 주요 단점은 수십억 개의 파라미터를 포함하는 극도로 큰 모델에 의존한다는 것입니다 (Wei et al., 2022b; Kojima et al., 2022). 
    • 이러한 모델은 컴퓨터 자원 요구와 추론 비용이 엄청나기 때문에 대규모 배포에는 적합하지 않습니다 (Wei et al., 2022b). 
      • Chain of thought prompting elicits reasoning in large language models.
    • 따라서 우리는 대규모 배포에 더 적합한 작은 모델에서 복잡한 추론을 가능하게 하려고 노력하고 있습니다.
    • 나하고 비슷한 목표를 가지고 있구만 ㅎㅎ
  • 이 관점에서, 우리는 "Fine-tune-CoT"라는 접근 방식을 제안합니다. 
  • 이 방식은 매우 큰 언어 모델(LMs)의 추론 능력을 활용하여 작은 모델에게 복잡한 작업을 어떻게 해결할지 가르치는 것입니다. 
    • 우리는 기존의 제로샷 CoT prompting을 사용하여 매우 큰 교사 모델에서 rationales를 생성하고, 이를 작은 학생 모델을 세밀하게 튜닝하는 데 활용합니다. 
  • 이를 그림 2에서 설명합니다. 
  • 우리는 rationales 없이 일반적인 세밀 튜닝은 작은 모델로 추론 작업을 해결하는 데 부적합하다는 것을 언급합니다. 
    • 작은 모델을 hand-annotated reasoning steps로 세밀 튜닝하는 시도가 있었지만 (Nye et al., 2021; Cobbe et al., 2021), 이러한 방법들은 종종 작업별 훈련 설정과 고가의 근거 주석을 필요로 하며, 이는 비용이 많이 듭니다 (Wei et al., 2022b). 
    • 반면, 우리의 접근 방식은 hand-crafted reasoning or task engineering을 하지 않고도 새로운 하위 작업에 쉽게 적용할 수 있습니다.
    • LLM으로 rationale을 생성해서 이를 fine-tune에 활용한다.
  • 또한, 우리는 Fine-tune-CoT 방법의 teaching effects를 극대화하기 위한 새로운 확장인 'diverse reasoning'이라는 방법을 제안합니다. 
    • 복잡한 작업은 다양한 추론 경로를 갖는 여러 해결책을 가질 수 있다는 직관에서 착안했습니다 (Evans, 2010). 
    • 이를 통해 teacher 모델에서 확률적 샘플링을 사용하여 여러 reasoning solutions을 생성하여 학생 모델의 training 데이터를 보강하는 것입니다. 
    • 이것은 학생의 성능을 극대화하기 위한 간단하면서 매우 효과적인 방법임을 발견했으며, 이는 Fine-tune-CoT 추론과 관련된 동시 작업에서 명시적으로 인식되지 않은 방법입니다.
  • 우리는 다양한 공개 모델을 사용하여 12개의 작업에서 우리의 방법을 평가했습니다. 
    • 결과적으로 Fine-tune-CoT가 작은 모델에서 주목할만한 추론 성능을 유지하면서 이전에는 >100B 파라미터 모델이 필요했던 프롬프트 기반 CoT 추론의 다재다능성을 상당 부분 보존할 수 있음을 발견했습니다 (Wei et al., 2022b). 
  • 다양한 추론은 고유한 학습 설정을 활용하여 개발 시간에 추가적인 teacher 추론 비용을 지불하는 대신 놀라운 성능 향상을 가능하게 합니다. 
    • 이로써 0.3B 크기의 작은 모델조차도 일부 작업에서 더 큰 학생 모델 및 심지어 175B 규모의 선생님 모델을 능가할 수 있게 됩니다. 
  • 우리의 실험 결과는 고려된 모든 축에서 일관된 확장 가능한 성능을 보여주며, 다양한 추론, 데이터셋 크기, 선생님 성능 및 학생 모델 크기에 대한 잠재력을 보여줍니다.
  • 이로써 우리의 방법이 현실 세계 응용 프로그램에서 사용 가능한 작은 모델에서 안정적인 성능을 가능하게 하는 잠재력을 확인하게 됩니다. 
  • 마지막으로, 우리는 CoT에 대한 파인튜닝에서 이전에 무시되었던 중요한 세부 정보를 밝히고 작은 모델에서 추론 능력이 어떻게 나타나는지에 대한 직관을 제공하는 철저한 샘플 연구 및 분석을 수행합니다.

2 Related Work

  • Downstream transfer in language models 
    • 이전 연구들은 downstream 작업에서 LLM 성능을 향상시키기 위한 'pre-train and fine-tune' 패러다임을 수립했습니다. 
    • 그러나 파인튜닝은 항상 쉽게 적용되지는 않습니다 (Hendrycks et al., 2020). 
    • 더 최근의 문헌들은 모델에게 원하는 출력을 예측하도록 '프롬프트'를 제공하는 방향으로 패러다임이 전환되고 있습니다. 
    • 큰 LLM은 이러한 설정에서 강력한 성능을 보일 수 있습니다. 
    • 작은 모델이 유사한 성능을 발휘하려면 일반적으로 추가적인 엔지니어링이 필요합니다. 
    • 더 복잡한 작업의 경우, 명시적 추론 단계가 포함된 샘플을 사용하여 모델을 파인튜닝하는 아이디어가 매우 큰 LLM이 잘 수행되게 하는 chain-of-thought (CoT) 프롬프팅 방법에 앞서왔습니다.
  • Chain-of-thought reasoning 
    • few-shot CoT prompting에서는 모델이 단계별 reasoning steps를 제공 받은 후 문제 해결로 이어지는 중간 추론 단계를 생성하는 방법을 학습합니다. 
    • 이는 다양한 작업에서 매우 좋은 성능을 가능하게 합니다. 
    • 또한, LLMs는 비지도 학습 작업에 대해 Zero-shot-CoT를 사용하여 잘 수행할 수 있습니다. 
    • 이것은 fine-tuning or task specific conditioning이 필요하지 않으며 다양한 작업에서 standard zero-shot learning을 상당히 능가하며 때로는 few-shot learning까지 가능합니다. 
    • 그러나 이전 연구에 따르면 CoT는 최적의 성능을 위해 극도로 큰 모델이 필요합니다. 
    • 저희 연구에서는 매우 큰 모델이 생성한 근거를 사용하여 작은 모델을 파인튜닝하여 CoT 추론 방법을 어떻게 활용하는지를 보여주어 이와 대조합니다. 
    • 작은 모델을 위해 LLM이 생성한 다양한 설명을 사용하여 파인튜닝하는 방법은 이전 연구에서 성공적으로 사용되었으며, 주로 특정 단일 작업에 중점을 두었습니다 (Li et al., 2022a). 
      • Explanations from large language models make small reasoners better.
    • 또한, 유사한 접근 방식이 (Huang et al., 2022)에서 언급되었지만 이 동시 작업은 대규모 소유 모델에 대한 적은 양의 데이터로 few-shot-CoT를 사용하여 파인튜닝 예제를 자체 생성하는 데 중점을 두며, 결과는 한 데이터셋과 일반 커뮤니티에서 접근하기 어려운 매우 큰 선생님 모델에 한정되어 있습니다. 
      • Large language models can self-improve.
    • 반면, 우리는 모든 사람에게 접근 가능하고 작고 오픈 소스 모델을 사용하여 다양한 데이터셋에 대한 다양한 결과 및 질량적/양적 분석을 제공합니다.
    • CoT는 기전의 zero-shot learning / few-shot learning 보다도 괜찮은 방법이다.
    • 하지만 LLM을 필요로 하기 때문에, 우리처럼 LLM으로 근거를 생성해서 small model에 fine-tuning하는데 활용하는 것이 괜찮다.
    • 여기서 언급한 비슷한 연구 2편 읽어보면 좋을듯
    • 그리고 이 논문은 사실 ACL2023에 나왔던 논문으로 Distilling step-by-step과 유사한 컨셉이긴함
  • Knowledge distillation 
    • 일반적으로, knowledge distillation(KD)는 대형 모델에서 파생된 작은 모델을 교육하여 모델 크기와 대기 시간을 줄이면서 정확도와 일반화 능력을 보존하는 것을 의미합니다 (Hinton et al., 2015; Sanh et al., 2019). 
    • 기본적으로 KD는 모델 압축의 한 형태로, 용량 제한된 장치에 효율적으로 배치할 수 있도록 만드는 것입니다 (Bucilua et al., 2006). 
    • 우리는 또한 우리의 작업이 KD의 distant variant이 될 수 있다고 언급합니다 (Gou et al., 2021), Yoo et al. (2021); Schick and Schütze (2021b,a); Zelikman et al. (2022)과 같은 프롬프트 기반 방법을 개선하는 작업 또는 데이터 없는 증류 (data-free distillation) (Micaelli and Storkey, 2019; Nayak et al., 2019; Shen et al., 2021)과 유사한 작업과 유사한 정신상태를 가진다는 점입니다. 
    • 여기서 전송 데이터는 대규모 선생님 모델에서 합성으로 생성됩니다. 
    • 유사한 정신상태를 가지고 있지만, 우리의 방법은 여전히 그와 구별됩니다. 
    • 저희 방법에서 선생님 모델의 역할은 중간 추론의 개념을 가르치는 것입니다. 
    • 추론을 위한 주요 감독 신호가 특정 출력이 아니라 생성 구조이므로, 우리는 선생님 출력을 일치시키려는 표준 KD 손실 함수를 사용하지 않습니다. 
    • 이에 더하여, 우리의 다양한 추론도 KD의 맥락에서는 일반적이지 않으며, 예를 들어 시퀀스 수준 증류에서 시퀀스를 생성하는 것만으로 실제로 충분한 경우도 있습니다.

3 Chain-of-Thought Fine-Tuning

  • 우리는 small LMs에서 chain-of-thought 추론을 가능하게 하는 작업에 독립적인 방법인 'Fine-tune-CoT'을 제안합니다. 핵
  • 심 아이디어는 CoT 프롬프트를 사용하여 매우 큰 선생님 모델에서 추론 샘플을 생성하고, 이 생성된 샘플을 사용하여 작은 학생 모델을 파인튜닝하는 것입니다. 
  • 이 방법은 프롬프트 기반 CoT 방법의 다재다능성을 보존하면서 매우 큰 모델에 대한 의존성을 극복합니다. 
  • 다재다능성을 극대화하고 선생님 추론 비용을 최소화하기 위해 우리는 task-agnostic Zero-shot-CoT prompting method(Kojima et al., 2022)을 선생님 모델에 사용합니다. 
    • Large language models are zero-shot reasoners.
  • 이 방법은 추론 예시나 긴 추론 문맥을 필요로하지 않으므로 CoT 프롬프트 방법 선택에 대한 설명은 섹션 7.3에서 다루겠습니다. 
  • 이어서 Fine-tune-CoT를 세 가지 명확한 단계로 특성화하고 있으며, 그림 2에서 시각적 개요를 제공합니다.
  • Step 1. Reasoning generation 
    • 먼저, 우리는 large teacher 모델을 활용하여 주어진 작업에 대한 CoT 추론 설명을 생성합니다. 
    • 표준 샘플 Si는 질문 qi와 true answer ai로 구성됩니다. 
    • Zero-shot-CoT를 사용하여 teacher 모델에게 질문 qi를 해결하고 최종 답변 예측 aˆi를 생성하는 추론 설명 또는 근거 rˆi를 생성하도록 프롬프트합니다. 
    • 생성된 텍스트 시퀀스는 다음과 같은 형식을 가집니다: 
      • “Q: . A: Let’s think step by step. Therefore, the answer is ”.
  • Step 2. Curation 
    • 다음으로, 생성된 샘플을 걸러내고 프롬프트 완성 쌍(prompt-completion pairs)으로 다시 형식화합니다. 
    • 필터링 작업에서 우리는 이전 연구들을 따라 teacher 모델의 최종 예측인 aˆi를 실제 정답 ai와 비교하여 필터링합니다. 
    • 이 필터링은 일부 교육 샘플의 손실을 유발합니다. 
    • aˆi = ai인 모든 경우 i에 대해서 (Si, rˆi, aˆi)를 추론 샘플 S′i = (pi, ci), prompt-completion pair로 다시 패키징합니다. 
      • LLM이 생성한 rationales과 answer이 있을텐데, answer이 같으면 학습 데이터로 사용한다.
      • 즉 answer이 다르다면 데이터는 손실되는 형태
      • 근데 이러면, 전체 학습 데이터량이 줄어드는것 아닌가?
    • 추론 시간 효율성을 극대화하기 위해, 토큰 사용을 최소화하기 위해 특수 문자 기반의 구분자를 사용합니다. 
    • 구체적으로 pi와 ci는 각각 "###"와 "--> END" 형식을 가집니다. 
      • 기존 completion에서 parsing해서 answer을 추출하는게 아닌, "--> {answer} END"을 포함한 것을 completion으로 사용하는 듯
      • 즉 small 모델의 입력은
        • LLM의 프롬프트 ### raiontale(LLM response) --> {answer} END 형태
    • answer-based filtering 하는 것은 특히 multi-choice questions에 대해서는 rationales의 정확성을 보장하지 않습니다.
      • answer이 같다고해서 rationales이 정확한 것은 아니다.
    • 이 중요한 세부 사항은 동시 작업에서 다루지 않았으며, 이에 관한 분석은 부록 E.1에서 제공합니다.
      • 부록 확인필요
  • Step 3. Fine-tune 
    • 마침내, 우리는 assembled 추론 샘플에 대한 사전 훈련된 작은 학생 모델을 미세 조정합니다. 
    • 사전 훈련 중에 사용한 것과 동일한 훈련 목표를 사용합니다. 
    • 다시 말해서, autoregressive language modeling objective 또는 next-token prediction입니다.
  • Diverse reasoning 
    • Fine-tune-CoT의 teaching 효과를 극대화하기 위해, 각 교육 샘플에 대해 여러 추론 설명을 생성할 수 있습니다. 
    • 이 접근법은 복잡한 작업, 즉 type-2 tasks (Evans, 2010)을 해결하기 위해 여러 추론 경로를 사용할 수 있다는 직관에 기반합니다. 
    • 복잡한 작업의 이러한 고유한 특징과 teacher model의 확률적 생성 능력과 결합함으로써 다양한 추론을 단순히 추가 교사 추론을 통해 추론 감독을 크게 향상시킬 수 있다고 가정합니다. 
    • 구체적으로, 주어진 샘플 Si에 대해 Greedy 디코딩을 사용하여 단일 설명-답변 쌍 (ˆei, aˆi)을 얻는 대신, temperature sampling with large T와 같은 stochastic sampling strategy을 사용하여 D개의 서로 다른 생성 (ˆrij, aˆij)을 얻습니다. 
    • 이후 추론 샘플 선별 및 미세 조정은 이전과 동일하게 진행됩니다.
      • 즉 여러 추론샘플들을 각각의 하나의 학습데이터로 생각해서 그냥 똑같이 진행? 
    • 여기서 D를 추론 다양성의 정도로 지칭합니다. 
    • 비슷한 접근 방식은 Wang et al. (2022); Huang et al. (2022)에서 사용되며, 여러 CoT 출력이 생성되고 최적 답변을 찾기 위해 결합됩니다. 
    • 그러나 다양한 추론의 교육 모델에 미치는 효과는 동시에 진행 중인 작업 (Huang et al., 2022; Li et al., 2022a; Magister et al., 2022; Fu et al., 2023)에서 인정되거나 철저히 조사되지 않았습니다. 
    • 다양한 추론은 교육 모델의 개발 비용과 추론 비용/품질 간의 중요한 트레이드오프를 가지며, 이에 대해 섹션 5.3에서 논의합니다.
    • rationale을 temperature을 조절하고 샘플링을 통해, 여러개 뽑을 수 있다.
    • 여러 rationale을 활용하면 distillation이 더욱 효과적이게 된다?
    • 물론 여러 rationale을 추출하는데 추론비용등이 더 들긴 할 것

4 Experiments 

  • Tasks and datasets 
    • 우리는 Kojima et al. (2022)를 따르며 복잡한 추론의 네 가지 범주에 속하는 12개의 데이터셋에서 우리의 방법을 평가합니다. 
    • 이러한 데이터셋에는 arithmetic (SingleEq, AddSub, MultiArith, GSM8K, SVAMP), 기타 (날짜 이해, 섞인 객체 추적), symbolic (마지막 글자 연결, 동전 던지기), common sense (CommonSenseQA, StrategyQA) 추론이 포함됩니다. 
    • 자세한 내용과 참고 자료는 부록 B에서 제공됩니다.
  • Models 
    • teacher models로는 OpenAI API에서 제공되는 GPT-3 175B의 네 가지 변형을 사용합니다 (Brown et al., 2020). 
    • (Unless otherwise stated) 특별히 언급하지 않는 한, Finetune-CoT의 교사로 InstructGPT 175B를 기반으로 한 text-davinci-002를 사용합니다.
    • 학생 모델로는 네 가지 인기 있는 모델 패밀리를 고려합니다. 
    • 주요 실험에서는 OpenAI API를 통해 쉽게 미세 조정 가능한 GPT-3 {ada, babbage, curie}를 사용합니다. 
    • API의 블랙박스 특성으로 인해, 우리는 다양한 오픈 소스 모델을 제어된 환경에서 고려하기도 합니다. 
    • 디코더 전용 및 인코더-디코더 아키텍처를 대표하는 모델 패밀리로 GPT-2 {Small, Medium, Large} 및 T5- {Small, Base, Large}를 사용합니다. 
    • 또한, student 모델에 대한 instruction tuning 효과를 조사하기 위해 Fine-tune-CoT를 적용하기 전에 T5의 instruction-tuned 버전인 FlanT5-{Small, Base, Large}를 사용합니다. 
    • 이러한 학생 모델은 교사 모델보다 25배에서 2500배 작기 때문에 현실 세계에서의 배포에 훨씬 더 적합합니다. 
    • 모델 및 API 사용에 대한 자세한 내용은 부록 C에서 제공됩니다.
  • Baseline methods 
    • 우리는 Fine-tune-CoT (ours)를 네 가지 기준선 방법과 비교합니다. 
      • 즉, 비교적 작은 모델로 다양한 방법으로 테스크에 맞는 정답을 추론해본다.
      • zero-shot은 단순히 prompt를 Q: 식으로 줘서 추론하게하고
      • few-shot은 설명안되어있지만, 앞에 그냥 같은 format으로 샘플을 넣어주는 식일듯
      • vanillia fine-tuning에서는 그림2의 curation을 통해 만든 데이터인 ###와 END을 통해 학습시킨다. (물론 여기서 rationale 부분은 빠지는 것)
      • fine-tune CoT은 rationale을 포함한 그림2의 방식일테고
    • 이러한 기준선 방법에는 standard zero-shot prompting, vanilla fine-tuning, Zero-shot-CoT, and Few-shotCoT이 포함됩니다. 
    • 주어진 training sample {(qi, ai)}i에 대해, zero-shot prompting에 대한 간단한 형식은 "Q: "로 표시합니다. 
    • vanilla fine-tuning의 경우 프롬프트와 완성을 각각 " ###"와 " END"로 형식화합니다. 
    • 우리는 방법의 분류를 표 2에서 명확하게 제시합니다. 
    • 텍스트 생성에 대해서는, 우리의 실험 동안 다양한 추론을 제외하고 Wei et al. (2022b); Kojima et al. (2022)를 따라 탐욕 디코딩을 사용합니다. 
    • teacher의 다양한 추론에 대해서는 Wang et al. (2022)를 따라 온도 샘플링과 T = 0.7을 사용합니다. 
    • 실험 세부 정보는 부록 A에서 제공합니다.

4.1 Results

  • 이 섹션에서는 Fine-tune-CoT와 다양한 추론을 사용한 모델의 추론 성능을 제시합니다. 
  • 우리는 다양한 기준선과 함께 비교하고, 우리의 방법이 네 가지 측면에서 확장 가능성을 시연합니다: 
  • degree of diverse reasoning (그림 3), 
    • D가 diverse rationale을 의미하는것
    • 즉 rationale 샘플이 많아질수록 Fine-tune-CoT의 성능은 향상된다.
  • 데이터셋 크기 (그림 4), 
    • 데이터가 많아질수록 Fine-tune-CoT 계열은 성능이 우상향한다.
    • Fine-tune도 향상되어야할 것 같지만.. 하락하는 경우도 있다.
    • Fine-tune, Fine-tune-CoT 둘다 우상향하는 경우에도 Fine-tune-CoT이 좀 더 효과적으로 보인다.
  • performance of the teacher (그림 5), 
    • teacher 모델의 성능이 좋아질수록 student 모델의(Fine-tune-CoT) 성능도 좋아진다.
    • rationale이 좀 더 정확해져서 그런게 아닐까? 싶음
    • 일반 distillation은 teacher이 좋다고 student가 꼭 좋은 것은 아니라는 연구 결과가 있다고 한다.
    • 하지만 Fine-tune-CoT는 teacher가 좋으면 student가 항상 좋다? (여기서는 일단 그럼)
  • size of the student model (그림 6). 
    • 다른 방법에서는, student 사이즈가 커진다고 항상 성능이 좋아지는 것은 아니다
    • Fine-tune-CoT w/ Diverser reasoning에서는 student 사이즈가 커지면 성능이 항상 커지긴 함
  • GPT-3 모델에 대한 결과를 본문에서 제시하고, 오픈 소스 모델에 대한 결과는 부록 G에 미루어 설명하며, 이 섹션의 끝에서 간략한 요약을 제공합니다.
  • Fine-tune-CoT elicits complex reasoning in small models 
    • 표 1은 Fine-tune-CoT를 사용한 student models의 정확도를 요약하며, 이를 프롬프트 기반 CoT 기준선 및 표준 미세 조정과 비교합니다. 
    • Zero-shot-CoT는 매우 큰 175B 모델에서 놀라운 성능을 나타내지만, 모든 세 개의 작은 모델에서 복잡한 추론을 가능하게 하는 데 실패하며, 모든 작업에서 거의 무시할 수준의 성능을 보입니다. 
    • 또한, small models은 표준 제로샷 프롬프팅 아래에서 이러한 작업에 접근하지 못함을 발견합니다. 
    • 그 반면, Fine-tune-CoT는 주목할만한 추론 성능을 유도하며, 더 작은 모델을 사용할 때 Zero-shot-CoT보다 상당한 이득을 보이며, 더 중요한 절반 이상의 작업에서 미세 조정 및 Few-shot-CoT를 능가합니다. 
    • 근데 항상 Fine-tune-CoT가 Few-shot-CoT 보다 좋은 것은 아니군? (물론 좋은 경우가 훨씬 많다)
    • 그리고 Fine-tune-CoT가 그냥 Fine-tune보다도 대체적으로 좋다.
    • 또한 Zero-shot-CoT가 Zero-shot보다 대체적으로 좋지만 항상 좋은것도 아니다
    • 반면 Few-shot-CoT가 Zero-shot-CoT보다 훨씬 더 큰 성능 향상을 보여주는 느낌이다.
    • 즉 Few-shot이 되게 중요하다라는 것을 간접적으로 알 수 있다.
    • 근데 diverse reasoning으로 인해, Few-shot-CoT의 성능이 꽤 올라가는 것을 보여준다.
    • 즉 diverse rationale distilling이 의미가 있어보인느 군
    • 복잡한 산술 문제에서 Fine-tune-CoT는 MultiArith에서 33%의 정확도를 달성하고 Zero-shot-CoT는 5%만 달성합니다. 
    • Few-shot-CoT 및 미세 조정은 각각 10% 및 15%를 달성합니다. 
    • 두 가지 상식적 추론 작업에 대해 우리의 방법은 Zero-shot-CoT의 거의 무작위 성능을 각각 37% 및 5%로 능가합니다. 
    • 또한, CommonSenseQA에서 Few-shot-CoT를 32%로 능가하고 StrategyQA에서 유사한 성능을 나타냅니다. 
    • 우리는 Fine-tune-CoT 성능이 지나치게 복잡하지 않은 작업에 가장 주목할 만하며, 이러한 작업에는 기타 추론 작업 (날짜 이해, 섞인 객체) 및 상징적 추론 (마지막 글자, 동전 던지기)이 포함되어 다른 기준선을 크게 능가합니다. 
    • 모든 학생의 성능은 부록 표 9를 참조하십시오.
  • Small models can outperform very large teachers in reasoning 
    • 표 1에서는 Fine-tune-CoT가 175B 규모의 큰 모델에 비해 작은 모델에서 매우 효과적임을 보여줍니다. 
    • Shuffled Objects 및 Coin Flip과 같은 작업에서, Fine-tune-CoT는 1.3B 또는 6.7B 매개변수를 사용하더라도 교사 모델을 능가하는 것으로 나타났으며, 필요한 매개변수 수를 대략 25-100배 줄일 수 있습니다. 
    • 또한 0.3B 모델을 사용한 Fine-tune-CoT가 Zero-shot-CoT에서 일관되게 6.7B 모델을 능가함을 발견했으며, 모델 크기가 크게 축소되더라도 기본 모델에 비해 더 넓은 능력 범위를 활용할 수 있는 것을 보여주고 있습니다.
  • Diverse reasoning substantially improves Finetune-CoT performance. 
    • 다양한 추론의 학습 효과를 조사하고 Fine-tuning 및 Few-shotCoT에서 제공하는 두 가지 기준과 비교해보기 위해 MultiArith와 SVAMP5에서 세 가지 모델 규모에 걸쳐 샘플당 1~64개의 추론 설명을 사용하여 Fine-tune-CoT를 적용합니다. 
    • 그림 3은 다양한 추론이 Fine-tuneCoT를 사용하는 학생 모델의 성능을 크게 향상시킬 수 있음을 보여줍니다. 
    • 6.7B 학생 모델의 경우 MultiArith에서 약 26%의 향상과 SVAMP에서 약 17%의 향상을 찾을 수 있었습니다. 
    • 또한 다양한 추론을 사용하면 해당 모델 크기 내에서 항상 기준을 능가하며, 다양한 추론을 사용하지 않는 더 큰 모델의 성능을 능가할 수도 있습니다. 
    • 이 경우에는 두 가지 경우에서 심지어 교사 모델(Date Understanding, Last Letter)을 포함합니다. 
    • 더불어, diverse reasoning이 모든 모델 크기에서 Few-shot-CoT와 기본적인 Fine-tuning의 성능을 능가하도록 Finetune-CoT의 성능을 향상시킬 수 있다는 점을 발견했습니다. 
    • 우리는 복잡한 작업에 중점을 두었기 때문에 추론 경로와 언어적 템플릿의 다양성이 학생 모델이 추론하는 데 상당한 도움이 될 것으로 생각합니다.
  • Fine-tune-CoT consistently benefits from more data. 
    • 데이터셋 크기에 대한 ablation 실험을 수행하여 데이터셋 크기에 따른 우리의 방법의 성능 확장성을 연구했습니다. 
    • 결과적으로, 6.7B 모델의 성능이 task와 관계없이 데이터셋 크기와 명확하게 비례함을 관찰했습니다. 
    • 비교적 기본적인 Fine-tuning은 이와 같은 행동을 항상 나타내지는 않습니다. 
    • 사실, Date Understanding의 경우, 데이터셋 크기가 증가하면 Fine-tuning의 성능이 저하되는 것을 발견했습니다. 
    • 더불어 Fine-tune-CoT는 표준 Fine-tuning에서 적용되지 않는 다양한 추론에서 추가적인 이점을 얻는 것을 관찰했습니다.
    • 학습 데이터가 많아질수록 Fine-tune-CoT 성능은 향상된다.
    • Fine-tune은 성능이 저하되는 경우도 존재한다.
  • Better reasoners are better teachers 
    • 다음으로, Fine-tune-CoT를 사용할 때 교사의 성능이 학생의 성능과 어떤 상관관계가 있는지에 대한 질문을 할 수 있습니다. 
    • 이를 테스트하기 위해 교사 모델로 GPT-3의 다른 버전을 사용하고 학생 모델의 크기를 6.7B 매개변수로 일정하게 유지합니다(그림 5). 
    • 우리는 학생의 성능이 실제로 교사의 성능과 관련이 있다는 것을 발견했습니다, 
    • 특히 복잡하지 않은 작업인 Date Understanding 및 Last Letter에서 학생의 성능이 교사의 성능과 매우 근접합니다. 
    • 이것은 또한 우리가 별첨 D에서 관찰한 것과 일치하는데, 거기서 교사와 학생의 성공과 실패가 상호 관련되어 있음을 보여줍니다. 
    • 우리는 이 스케일링 효과가 knowledge distillation에서 항상 더 정확한 교사가 더 나은 학생을 만들지는 않는다는 점에서 다른 점을 보입니다 (Menon et al., 2021).
  • Fine-tune-CoT performance scales with model size for small LMs 
    • 마지막으로, 학생 모델 크기를 확장하는 것이 우리의 방법에 미치는 영향을 탐구하고, Few-shot-CoT 및 기본 Fine-tuning에서 더 큰 학생 모델의 영향과 비교합니다. 
    • 우리는 Fine-tune-CoT의 성능이 학생 크기와 일관적으로 확장 가능하다는 것을 관찰할 수 있습니다(그림 6). 
    • 반면에 두 가지 기준 모두 Date Understanding에서는 확장 가능한 성능을 얻지 못하는 것으로 나타납니다.
  • Results on open-source student models 
    • 전반적으로, T5, Flan-T5 및 GPT-2에서의 연구 결과는 GPT-3에서 관측된 경향과 유사합니다. 
    • 대부분의 경우에는 작은 모델이 standard zero-shot or CoT prompting 아래에서 거의 무작위 성능을 나타냅니다. 
    • 특히 T5와 Flan-T5와 같은 인코더-디코더 모델은 표준 Fine-tuning에서 주목할만한 성능을 보이며, 이것은 CoT output이 없는 경우 디코더 기반 언어 모델의 추론에 대한 병목 현상일 수 있음을 시사합니다. 
    • Fine-tune-CoT는 프롬프트 기반 기준을 일관되게 능가하고 기본적인 Fine-tuning과 비교 가능하거나 뛰어나다는 것을 발견했습니다. 
    • 다양한 추론은 성능을 더욱 향상시키며 종종 중요한 이득을 얻습니다. 
    • 오픈 소스 모델에 대한 전체 연구 결과는 부록 G에서 보고되었습니다.
    • 결과는 Fine-tune-CoT가 Fine-tune보다 항상 좋다고 보면 된다.
    • T5, Flan-T5와 같이 small model 계열에서는 일반적인 zero/few-shot prompting 같은 것은 별 의미가 없지만
    • 이렇게 학습데이터를 통한 distillation을 하면 꽤 의미가 있다
    • small model이 zero-shot prompting이 의미가 없는 이유는 아마 CoT 출력(즉 rationale)을 유추안하기 때문이 아닐까?라는 유추도 된다라는 것

4.2 Analysis

  • Sample study 
    • 우리의 방법의 강점과 약점을 식별하기 위해 모든 데이터셋과 방법을 대상으로 철저한 예제 연구를 수행했습니다. 
    • 모든 arithmetic 작업에서 오류의 상당 부분이 계산 오류에서 비롯되는 것을 발견했습니다. 
    • MultiArith와 SVAMP 역시 많은 의미론적 오류를 보이지만, 다양한 추론을 통해 이러한 오류가 크게 감소합니다. 
    • GSM8K 및 AQUA와 같은 어려운 작업에서는 모든 방법이 어려움을 겪는 경향이 있습니다. 
    • 텍스트 기반 작업 및 공통 언어 패턴을 포함하는 작업에서 우리의 방법이 매우 효과적임을 발견했습니다. 
    • 반면, Zero-shot-CoT 아래에서 학생들은 종종 질문을 반복하거나 일관성 없는 반복적인 진술을 생성합니다. 
    • Few-shot-CoT는 단계별 문장을 유도하지만 학생 모델은 질문의 의미를 이해하는 것 같지 않으며 생성물에는 논리적이거나 상식적인 오류가 자주 포함됩니다. 
    • 자세한 예제 연구 내용은 부록 D를 참조하십시오.
  • Nuances of fine-tuning on CoT reasoning 
    • 우리는 이전 또는 동시에 진행된 작업에서 종종 간과되는 세부 사항을 밝혔습니다 (Wei et al., 2022b; Li et al., 2022a; Magister et al., 2022). 
    • 먼저, 올바른 샘플이 잘못된 추론을 포함할 수 있는 가능성을 인정합니다. 
    • 실제로 Date Understanding의 경우 올바른 teacher completions의 27.6%가 추론 오류를 포함하고 있음을 발견했습니다. 
    • 그러나 rationale 필터링에 대한 ablations  실험은 이러한 잘못된 rationale 이 student supervision에 도움이 될 수 있음을 시사합니다(부록 E.1). 
    • 둘째, CoT 생성에 사용되는 일반적인 최대 시퀀스 길이는 종종 불완전한 답변을 야기하는 것으로 나타났습니다. 
    • 우리는 데이터셋 간 추론 길이의 차이를 관찰하며, 보다 긴 생성이 일반적으로 정확도를 향상시키지만, Fine-tuning에는 유용하지 않을 수 있음을 관찰했습니다(부록 E.2). 
    • 마지막으로, 많은 데이터셋이 공통 템플릿을 공유하는 샘플로 구성되어 있으며, 이로 인해 임의의 훈련-테스트 분할의 유효성이 저해될 수 있습니다. 
    • 이 문제를 해결하기 위해 우리의 방법을 수동 템플릿별 데이터 분할에서 평가하고 students이 의미 있는 추론 능력을 유지하는지 확인합니다(부록 E.3).

5 Discussion

5.1 Accessibility of Fine-tune-CoT

  • teacher generation method인 Zero-shot-CoT의 다양성 덕분에, 우리의 방법은 과제별 엔지니어링이 필요하지 않고 어떤 복잡한 작업에도 손쉽게 적용될 수 있습니다. 
  • Rationales 을 생성하는 것은 OpenAI나 Anthropic과 같은 공개적으로 사용 가능한 API를 사용하여 쉽게 할 수 있습니다. 
  • 이로써 낮은 자원 환경에서 CoT 훈련 데이터를 얻는 것이 가능하며, 이는 표준 Fine-tuning을 능가할 뿐만 아니라 학생이 해석 가능한 설명을 출력하도록 유도합니다. 
  • 학생 모델에 대한 Fine-tuning 및 추론도 매우 큰 모델과 대조적으로 훨씬 접근하기 쉬운 하드웨어에서 수행할 수 있습니다. 
  • 이렇게 함으로써 장기적인 추론 비용을 줄이고 환경 영향을 최소화하면서 우리의 방법을 광범위한 커뮤니티에서 완전히 접근 가능하게 만들 수 있습니다.

5.2 Viability of Fine-tune-CoT

  • Fine-tune-CoT은 작은 모델에서 주목할 만한 복잡한 추론 능력을 유도하지만, 일부 어려운 데이터셋에서의 성능은 현실 세계에서의 사용에는 적합하지 않을 수 있으며, 예를 들어 SVAMP에서의 30.33% 성능은 그렇게 여겨지지 않을 수 있습니다. 
  • 그러나 섹션 4.1에서의 연구 결과는 우리의 방법이 (1) diverse reasoning, (2) dataset size, (3) teacher model performance, and (4) student model size와 함께 고유하게 확장 가능하다는 중요한 잠재력을 나타냅니다. 
  • 다양한 추론 및 더 나은 teacher 모델을 사용하는 것은 향후 teacher LLM 성능 및 추론 비용의 개선을 통해 이점을 얻을 수 있으며, 이는 향후에 성능 향상을 이끌어낼 수 있는 유망한 가능성입니다. 
  • 또한, student 모델에서 중요한 성능 향상을 이끄는 최근의 CoT 방법을 통합하는 것도 가능하며, 이에 대한 논의는 섹션 7.3에서 다루고 있습니다.

5.3 Tradeoffs of Fine-tune-CoT

  • 앞서 언급한 Fine-tune-CoT를 향상시킬 수 있는 기회들은 많은 중요한 트레이드오프를 내포하고 있습니다. 
  • 더 깊은 분석은 향후 연구에 남겨두도록 합니다.
  • Degree of diverse reasoning 
    • 다양한 추론의 성능 이점은 추가 teacher 추론 비용과 함께 제공됩니다. 
    • 따라서 다양한 추론은 개발 비용 대비 추론 비용 및 품질 사이의 tradeoff를 가집니다. 
    • 다시 말해, 다양한 추론에서의 성능 향상은 student의 성능 향상이나 더 큰 student 모델이 필요한 필요성을 완화하는 데 활용될 수 있습니다. 
    • 이는 미래의 유사한 풀어내기 방법의 공정한 평가를 위해 고려되어야 합니다.
  • Data acquisition 
    • Data annotation and diverse reasoning은 미세 조정 데이터를 확장하는 데 모두 사용될 수 있지만 각각에는 연관된 비용이 있습니다. 
    • 다양한 추론의 비용은 생성된 rationale의 수와 원래 샘플의 수에 선형적으로 비례한다는 점을 언급하고 있습니다. 
    • 그럼에도 불구하고, 이는 추가 데이터를 수동 주석하는 비용 효과적인 대안일 수 있습니다. 
    • 부록 F의 초기 비용 분석에서 데이터 획득 비용 대 성능의 pareto front는 항상 다양한 추론을 포함한다는 것을 보여줍니다. 
    • 다양한 추론의 비용 이점은 teacher 모델의 성능과 효율성이 향상되면 계속해서 향상될 것으로 기대됩니다.

5.4 Emergence of CoT reasoning

  • 최근 연구에서는 CoT 추론과 같은 능력의 발현이 관심사가 되었습니다. 
  • 작은 모델에서 Fine-tune-CoT의 효과성이 이 발현을 반증하지는 않음을 언급합니다. 
  • 왜냐하면 우리의 방법은 fine-tuning에 기반하기 때문입니다. 
  • 그러나 우리는 우리의 결과가 이 현상에 대한 어떤 통찰력을 제공할 수 있다고 믿습니다.
  • Why does Fine-tune-CoT work in small models? 
    • Wei의 중요한 연구에서는 CoT 추론이 규모에 따라 발생하는 능력으로 제안되며, 더 구체적으로는 의미 이해, 기호 매핑, 산술 능력 등 다양한 발생 능력을 포함하는 복잡한 현상이라고 제안합니다. 
    • 그러나 우리의 sample studies는 상대적으로 작은 모델에서도 Fine-tune-CoT가 이러한 발생 능력을 유발한다는 것을 시사합니다 (부록 D 참조). 
    • 이를 두 가지 관점에서 설명합니다.
    • 첫째, Wei는 모델 규모가 커짐에 따라 추론 오류의 빈도가 감소함으로써 추론 능력의 발현을 입증했습니다. 
      • 마찬가지로 우리는 더 강력한 감독 형태 또한 추론 오류를 점진적으로 감소시킨다는 것을 발견했습니다. 
      • 예를 들어, Zero-, Few-shot-CoT와 Fine-tune-CoT (다양한 추론 포함) 간의 의미적 오류, 즉 복잡한 질문을 이해하고 계산 오류의 빈도 및 심각성에서 명확한 차이를 찾았습니다. 
      • 이것은 추론에 대한 명시적 감독 또한 추론 능력의 발현을 이끌어낼 수 있다는 것을 시사합니다.
    • 둘째, 우리는 학생들이 더 큰 교사 모델을 떠올리게 하는 능력을 보여준다는 질적으로 발견했습니다. 
      • 우리는 students 이 주어진 작업의 공통 의미 및 추론 신호를 인식하고 큰 작업을 하위 작업으로 분할하는 과정을 모방할 수 있다는 것을 발견했습니다. 
      • 이것은 특정 도메인과 관련된 추론 능력을 배울 수 있다는 것을 시사합니다. 
      • 우리는 작은 모델에서 이것이 가능하며, 지식 영역이 큰 추론 작업에는 해당하지 않을 수 있다고 가정합니다.
  • Distillation of emergent abilities 
    • CoT(Chain-of-thought) 추론은 매우 큰 언어 모델에서의 발생 능력의 주요 예로 인식되고 있습니다. 
    • 우리의 연구 결과는 특정 도메인에서 미세 조정을 통해 이 능력을 훨씬 작은 모델로도 추출할 수 있다는 것을 보여줍니다. 
    • 추출의 잠재력은 언어 모델의 미래 발전이 큰 모델뿐만 아니라 보다 넓은 영향을 가질 수 있는 발생 능력으로 이어질 수 있다는 것을 의미합니다. 
    • 이는 작은 모델에도 파급되는 이점을 가져올 수 있을 것입니다.

6 Conclusion

  • 저희는 Fine-tune-CoT라는 방법을 제안했으며, 이 방법은 LLMs(대형 언어 모델)을 reasoning teachers로 사용하여 이전에 100B 모델 이상에서 발견된 다양한 reasoning 능력을 0.3B 정도의 작은 학생 모델로 전달합니다. 
  • 우리는 이러한 교육 효과를 극대화하기 위한 혁신적인 방법으로 다양한 추론을 제안하며, 이 새로운 학습 환경의 고유한 특성을 활용하여 성능을 크게 향상시킬 수 있습니다. 
  • 우리의 포괄적인 실험 결과는 Fine-tune-CoT가 작은 모델에서 중요한 추론 성능을 유발함으로써 규모의 발생 능력으로 간주되던 CoT 추론의 증류를 시연합니다. 
  • 공개적으로 사용 가능한 모델을 활용하여 제로샷 프롬프팅으로 작업에 대한 태스크 독립적인 방법을 시연하여, 복잡한 추론이 현실 세계에서 배포 가능하고 널리 사용 가능하게 되도록 합니다.

Reference

댓글