NL-202, Contrastive Chain-of-Thought Prompting, Preprint

◼ Comment

  • CoT에 대한 논문은 처음 읽어본 거 같다.
    • 읽기전에 아래의 블로그를 참고하면 좋다
    • https://gagadi.tistory.com/50
  • 이 논문은 6페이지로 작성된걸 보면.. 아직 미완성인거 같고 조만간 full paper로 어딘가에 publish되길 희망한다.
    • AK paper 추천에 뜬 논문으로 discussion은 다음의 위치에서 가능
    • https://huggingface.co/papers/2311.09277
  • 어쨌든 기존의 CoT는 few-shot을 모델에 prompt해줄때 rationale을 넣어주게 되는데, 이게 성능 향상에 효과가 있다.
  • CCoT는 negative rationale인, 즉 잘못된 추론을 prompt에 같이 넣어주면 더 좋다는 것이다.
    • CCoT는 postive rationale에서 object(숫자나, entity)을 치환함으로써 만들어낼 수 있다.
    • 본 논문에서는 5가지 유형의 negative rationale가 있음을 보여준다.
    • 실제로, negative rationale을 manual로 생성해서 실험해보면 모두 효과가 있음을 보여준다.
    • 하지만 이는 자동으로 생성한게 아닌 manual로 생성한 것이다.
  • main 실험에서는 자동으로 생성한 negative rationale에 대해 실험한다.
    • Incoherent Objects으로 negative rationale을 생성했고, 더욱 다양한 데이터에 대해서 실험한다.
    • 여기서 entity을 검출하기 위해 이미 공개된 객체명 인식 모델을 활용했다고 한다.
    • 그 결과 성능이 향상됨을 보여준다.. 신기한데?
    • 그리고 self-consistency을 결합하면 더욱 성능이 올라간다.
  • CCoT는 CoT의 positive rationale을 활용하는 것이기 때문에 굳이 few-shot rationale을 위한 비용이 추가적으로 들지 않는 점이 있다.

Abstract

  • CoT의 성공에도 불구하고, 그 기저 과정은 여전히 잘 이해되지 않은 상태입니다. 
  • 논리적으로 타당한 추론은 사슬 사고에 필수적으로 중요한 것으로 보이지만, 이전 연구에서는 유효하지 않은 demonstrations를 사용할 때 최소한의 영향만 나타난 것이 놀라운 결과입니다. 
  • 더구나, 기존의 CoT는 언어 모델에게 어떤 실수를 피해야 하는지에 대한 정보를 제공하지 않아 더 많은 오류로 이어질 수 있습니다. 
  • 따라서 우리는 양성 및 음성 예제에서 모두 학습할 수 있는 인간의 학습 방식에서 영감을 받아 언어 모델 추론을 강화하는 "대조적 사슬 사고(Contrastive Chain of Thought)"를 제안합니다. 
  • 기존의 CoT와 비교하여 우리의 접근 방식은 유효한 및 무효한 추론 데모를 모두 제공하여 모델이 단계별로 추론하면서 추론 오류를 줄이도록 안내합니다. 
  • 일반화를 향상시키기 위해 대조적 데모를 만들기 위한 자동 방법을 도입합니다. 
  • 추론 벤치마크에서의 실험 결과는 Contrastive CoT가 CoT 프롬프트의 일반적인 향상 요소로 작용할 수 있다는 것을 보여줍니다.

1 Introduction

  • LLMs의 트렌드에 따라 모델 크기를 대규모로 확장하는 것은 높은 일반화를 가능케 하였으며(Brown 등, 2020), 적절한 프롬프트가 주어질 때 새로운 작업을 수행할 수 있는 능력이 나타났다(Wei 등, 2022a). 
  • 그러나 모델 크기만 증가시켜서는 복잡한 추론 작업을 해결할 수 없다는 한계가 있다(Rae 등, 2022). 
  • 이에 따라 연쇄적 추론 프롬프팅(chain-of-thought prompting)이 제안되었는데, 이는 중간 추론 단계를 생성함으로써 LLMs의 추론 능력을 해제하는 것을 목표로 한다(Wei 등, 2022b). 
    • 실제로 CoT을 기반으로 한 대부분의 방법은 문맥 학습(In-Context Learning)을 활용하며(Brown 등, 2020), input, CoT, 그리고 출력의 데모를 모델에 제공함으로써 작동한다(Chu 등, 2023).
  • 그러나 성공에도 불구하고 연쇄적 추론에 대한 철저한 이해가 부족합니다(Cooper 등, 2021). 
    • 예를 들어, 유효하지 않은 추론을 보여주는 데모조차도 유효한 데모와 유사한 성능을 나타낼 수 있다는 것이 확인되었습니다(Wang et al., 2023). 
    • 잘못된 few-shot도 효과가 있다?
    • 따라서 언어 모델이 연쇄적 추론 데모를 기반으로 효과적으로 추론하는 방법은 명확하지 않습니다.
    • 반면에 중간 단계에서의 실수는 추론 과정을 복잡하게 만들고 방해할 수 있습니다(Ling 등, 2023). 
    • 추론 과정에서의 잠재적인 오류는 최종 결과의 정확성 뿐만 아니라 언어 모델의 신뢰성에도 영향을 미칩니다(Turpin 등, 2023). 
    • 따라서 중간 추론 단계에서의 오류를 줄이는 것도 중요합니다.
    • 에러가 누적되는 느낌이기 때문에, 중간의 추론단계의 오류 잡는 것도 중요하다.
  • CoT의 챌린지에 대응하기 위해 우리는 인간이 긍정적인 예제뿐만 아니라 부정적인 예제에서도 학습할 수 있는 방식에서 영감을 받았습니다. 
    • 예를 들어, 중간 단계가 명확하지 않은 복잡한 작업을 해결할 때 긍정적인 데모로부터 올바른 단계를 학습하면서 동시에 부정적인 데모에서의 결함을 피하는 것이 유용합니다. 
    • 따라서 우리는 대조적 연쇄적 추론(contrastive chain of thought)을 제안합니다. 
    • 이는 긍정적이고 부정적인 데모를 모두 제공하여 언어 모델의 추론을 강화하는 방법입니다. 
    • 이로 인해 어떻게 효과적인 부정적 데모를 디자인하고 이를 다양한 작업에 일반화할 수 있는지에 대한 문제가 제기됩니다. 
    • 여러 유효하지 않은 추론 유형을 분석한 결과, 기존의 유효한 추론 체인에서 대조적 데모를 자동으로 생성할 수 있는 간단하고 효과적인 방법을 설계하였습니다. 
    • 더불어, 대조적 연쇄적 추론은 작업에 독립적이며 self-consistency와 같은 방법과 호환되므로 일반적인 연쇄적 추론의 일반적인 향상 요소로 기여할 수 있다고 믿습니다.
    • 기존의 CoT에서부터 CCoT을 자동으로 생성?
  • 대조적 연쇄적 추론의 효과를 측정하기 위해 다양한 추론 벤치마크에 대한 평가를 제시하고 중요한 이점을 확인했습니다. 
    • 특히, 널리 사용되는 LLM인 GPT-3.5-Turbo를 사용할 때 기존 CoT과 비교했을 때 GSM-8K(Cobbe 외, 2021)와 뱀보글(Press 외, 2023)의 경우 각각 9.8점과 16.0점이 향상되는 것을 관찰할 수 있습니다. 
    • 또한 우리의 방법에서 생성된 추론 체인의 추가적인 분석에서도 중요한 오류 감소가 나타났습니다.
  • 요약하면, 우리의 주요 기여는 다음과 같습니다: 
    • (1) 다양한 부적절한 추론 유형을 분석하고 긍정적 및 부정적 데모를 결합하면 연쇄적 추론의 효과를 일반적으로 향상시킨다는 사실을 발견했습니다. 
    • (2) 위의 분석을 기반으로 언어 모델 추론을 향상시키기 위해 대조적 연쇄적 추론을 제안했습니다. 더불어, 대조적 데모를 자동으로 구성하기 위한 방법도 제안했습니다. 
    • (3) 다양한 추론 벤치마크에서의 평가 결과는 기존의 연쇄적 추론에 비해 상당한 향상을 보여주고 있습니다.

2 Preliminary Study: Effect of Different Types of Contrastive Demonstrations 

  • CoT 프롬프팅은 대형 언어 모델의 추론을 향상시켰지만 여전히 잘 이해되지 않은 부분이 있습니다. 
  • 예를 들어, 건전한 추론이 효과적인 연쇄적 추론에 직관적으로 중요해 보이지만, 이전 연구에서는 부적절한 데모를 사용할 때 효과가 거의 없다는 것을 보여주었습니다. 
  • 반면에 대조적 학습(Contrastive Learning)과 정렬(Alignment)의 이전 작업들은 언어 모델이 유효한 예제와 부적절한 예제에서 효과적으로 학습할 수 있는 방법을 보여 주었습니다 (Khosla 등, 2020; Ouyang 등, 2022). 
  • 따라서 우리는 다음과 같은 연구 질문을 가지고 예비 연구를 실시했습니다: 
    • 부적절한 추론 데모를 대신하여 연쇄적 추론을 향상시키는 데 사용할 수 있을까? 
  • 구체적으로 우리는 "대조적" 방식으로 연쇄적 추론 데모를 제공하는 효과를 연구하는 것이 목표입니다. 
  • 즉, 유효한 이유와 부적절한 이유를 모두 포함하는 데모를 포함합니다.

2.1 Components of Chain of Thought 

  • 표준 프롬프트와 in-context demonstrations를 비교하여 CoT 프롬프팅은 각 데모 예제에 대한 이유를 포함합니다. 
  • 각 이유는 중간 추론 단계의 일련의 과정으로 이루어져 있으며, 언어 모델이 과제를 단계별로 해결하도록 안내합니다. 
  • (Wang 등, 2023)의 정의를 따라 각 CoT 이유의 두 가지 명확한 구성 요소를 식별합니다:
    • Bridging 오브젝트는 모델이 최종 해결책에 도달하기 위해 횡단하는 상징적인 항목들을 말합니다. 예를 들어, 이러한 오브젝트들은 산술 작업에서 숫자와 방정식일 수도 있고, 사실적인 작업에서는 엔터티의 이름일 수 있습니다.
    • Language templates은 언어 모델이 추론 과정에서 올바른 브리징 오브젝트를 유도하고 맥락화하기 위한 텍스트 힌트입니다.

2.2 What is Invalid Chain of Thought?

  • chain of thought의 구성 요소를 고려할 때, 이제 유효하지 않은 rationales의 근거를 식별하는 데 체계적으로 접근할 수 있게 되었습니다. 
  • 구체적으로 언어 및 대상 구성 요소에 적용되는 두 가지 주요 측면이 있습니다.
    • Coherence은 rationale의 단계를 올바르게 배열하는 것을 의미하며, 성공적인 CoT을 위해서는 필수적입니다. 구체적으로, CoT은 순차적 추론 과정이므로 후속 단계가 초기 단계의 선행 조건이 될 수는 없습니다.
    • Relevance은 근거에 질문으로부터 해당 정보가 포함되어 있는지 여부를 나타냅니다. 예를 들어, 질문에서 Leah라는 사람이 초콜릿을 먹는다고 언급한다면, 다른 사람이 머리를 자르는 것에 대해 논의하는 것은 관련이 없을 것입니다.
    • Coherenece는 CoT의 추론과정이 순차적이어야 된다는 것. 순서가 제대로 되야한다!
    • Relevance는 추론이 제대로 된 것이어야 한다는 것. 즉 질문으로부터 해당 정보가 포함되는지가 중요
  • 또한, Wang 등(2023)의 연구를 따라 invalid reasoning을 불일치나 관련성이 없는 것이 아니라 논리적 오류를 포함한 invalid chain of thought의 범주로 포함합니다. 
    • 유효하지 않은 추론이란, 관련성이 없는것이 아니라 논리적 오류를 말한다?
  • 따라서 우리의 목표는 Figure 2에 나와 있는 유효하지 않은 사고 체인의 다섯 가지 주요 범주를 연구하는 것입니다.
    • invalid reasoning: 그냥 잘못된 추론
    • incoherent objects: 숫자들이 뒤죽박죽 섞인것. 하지만 이 숫자들은 정답 CoT에서 나온 것. object는 숫자말고 사람이름일 수도 있음
    • incoherent language: 숫자는 맞지만, text 순서가 섞임
    • irrelevant objects: 숫자들이 그냥 다른 숫자들로 채워둠. 근데 추론과정은 또 맞는듯?
    • irrelevant language: 숫자는 맞지만, text가 그냥 다른 걸로 바뀜.

2.3 Experimental Setup

  • 예비 연구를 위한 실험을 수행하기 위해, 산술(arithmetic) 및 사실 추론(factual reasoning)을 위해 각각 GSM8K (Cobbe 등, 2021) 및 Bamboogle (Press 등, 2023) 데이터셋을 활용합니다. 
  • 우리는 합리적인 비용으로 가장 인기 있는 및 성능이 우수한 언어 모델 중 하나인 OpenAI Chat Completions API를 사용합니다. 
  • 구체적으로 GPT-3.5-Turbo (0301) 버전을 사용합니다. 
  • 다양한 설정에서 대조적 시연의 효과를 연구하기 위해, 우리는 Figure 2에 나와 있는 다섯 가지 주요 invalid categories를 평가합니다. 
  • 각 데이터셋에 대해 4번의 프롬프팅을 사용하며, 사고 체인 시연은 이전 연구 (Wei 등, 2022b; Wang 등, 2023)에서 수동으로 작성되었습니다. 
    • 이전 연구에서 CoT을 하기 위해 수동으로 작성된게 있다고함
  • 프롬프팅 프로세스를 표준화하기 위해, 우리는 Figure 1에 나와 있는 간소화된 사고 체인 프롬프트 형식을 사용합니다.
  • 아마도 그림2의 잘못된 CoT을 wrong answer로 prompt에 넣어주는 것 같음.

2.4 Preliminary Results

  • Table 1의 예비 결과를 기반으로, 일반적인 CoT과 비교하여 모든 유효하지 않은 이성 범주에서 상당한 향상을 관찰합니다. 
  • 특히, contrastive demonstrations을 포함하는 대조적 시연을 활용한 사고 체인이 GSM8K와 Bamboogle에서 가장 높은 평균 성능을 보입니다. 
  • 이는 언어 모델이 유효한 및 유효하지 않은 근거를 모두 제공 받았을 때 단계별 추론을 더 잘 학습할 수 있다는 것을 시사합니다. 
  • 따라서 contrastive demonstrations이 언어 모델의 추론 능력을 크게 향상시킬 수 있는 잠재력이 있다고 믿습니다.
    • 이 테이블의 결과는 invalid demonstrations은 수동으로 제작해서 실험한 것 같음

3 Contrastive Chain of Thought

  • CoT 프롬프팅은 이전 연구에서 언급되었듯이 (Wei et al., 2022b), 대규모 언어 모델의 추론 능력을 높였습니다. 
  • 그러나 이 현상에 대한 체계적인 이해는 아직 부족합니다. 
  • 논리적으로 타당한 추론은 사고의 연결 과정에서 중요한 역할을 하는 것으로 보이지만, 이전 연구에서는 invalid demonstrations를 사용했을 때 오히려 영향이 미미하다는 것이 놀라운 결과입니다. 
    • 이상한 reasoning few-shot을 줘도 효과가 미미하다는 연구가 있나봄
  • 따라서 저희가 섹션 2에서의 초기 연구를 바탕으로 한 것에 따르면, "contrastive" 방식으로 유효한 및 유효하지 않은 추론 데모를 제공하는 것이 추론 성능을 크게 향상시킵니다. 
    • 그러나 이 접근 방식은 새로운 작업에 대해 일반화되지 않을 수 있습니다. 
    • 왜냐하면 이는 invalid rationales를 수동으로 구성해야하기 때문입니다.
  • 따라서, 우리는 contrastive chain of thought라는 일반적인 프롬프팅 방법을 제안합니다. 
  • 이 방법은 대조적 데모를 자동으로 생성하는 것을 포함합니다. 
  • 그림 3은 우리의 접근 방식을 개략적으로 보여줍니다. 
    • 구체적으로, 언어 모델은 질문, 참답 설명 및 오답 설명을 제공받습니다. 
    • 표준 프롬프팅과 비교하여, 우리의 방법은 모델이 문제를 중간 단계로 분해하여 더 복잡한 추론을 수행할 수 있게 합니다. 
    • 기존의 사고 연쇄 프롬프팅과 비교하여, 우리의 방법은 유효한 및 유효하지 않은 답변 설명을 대조하여, 모델이 더 정확한 추론 연쇄를 생성하도록 안내합니다.
    • 즉 자동으로 wrong explanation 하는게 컨트리뷰션인 것 같음
  • 구체적으로, 주어진 소수의 n개의 문맥 내 데모 예제 D = {E1, . . . , E|n|}와 질의 Q가 있을 때, 모델의 목표는 적합한 답변 A를 생성하는 것입니다. 
  • 표준 프롬프팅의 경우, 데모 예제는 단순히 질문과 답변으로 구성됩니다. 
    • 즉, Ej = (Qj , Aj)입니다. 
  • 반면에, CoT는 중간 추론 단계 T를 사용하여 모델을 안내하는 더 발전된 프롬프팅 방법입니다. 
    • 위의 그림에서 보여진 것처럼, 추론 단계 T는 일반적으로 각 문장이 하나의 추론 단계를 설명하는 여러 문장으로 구성됩니다. 
    • 따라서 CoT 프롬프팅 예제는 질문, 추론 단계 및 최종 답변으로 구성됩니다. 
    • 즉, Ej = (Qj , Tj , Aj)입니다. 
  • 그러나 모델은 기존의 CoT에서 어떤 결함을 피해야 하는지 알지 못하며, 이는 잘못된 추론 단계와 오류 전파의 증가로 이어질 수 있습니다. 
    • 따라서 저희 대조적 사고 연쇄 방법은 데모 예제에서 올바른 추론 단계와 잘못된 추론 단계를 모두 제공합니다. 
    • 즉, Ej = (Qj , Tj,+, Aj,+, Tj,−, Aj,−)입니다.
    • 그림에 있는 프롬프트에 대한 설명임
  • 데모 예제의 올바른 추론 단계 T+를 얻기 위해, 이전 CoT works에서 주석이 달린 예제를 사용합니다. 
    • incorrect reasoning 단계 T−의 경우, 우리는 섹션 2의 "Incoherent Objects" 범주를 기반으로 T+에서 자동으로 구성합니다. 
    • 다른 타입의 contrastive CoT는 시도 안한건가?
    • 구체적으로, 주어진 CoT rationale로부터 숫자, 방정식 또는 사람과 같은 객체 영역을 추출하기 위해 기존의 entity recognition model을 사용합니다. 
    • 결과적으로, 우리는 이유 내 객체의 위치를 임의로 섞어 incoherent bridging objects를 포함하는 이유를 구성합니다. 
    • 새로운 질문을 테스트할 때는 질문과 데모 예제만 모델에 제공되며, 모델은 최종 답변을 생성하기 전에 자체 추론 단계를 생성해야 합니다.

4 Experiments

4.1 Experimental Setup

  • 우리의 연구는 두 가지 주요 유형의 추론 작업에 초점을 맞추고 있습니다: arithmetic reasoning and factual question answering (QA). 
  • 산술 추론의 경우, 우리는 GSM8K (Cobbe et al., 2021), AQuA (Ling et al., 2017), GSM-Hard (Gao et al., 2023), SVAMP (Patel et al., 2021), ASDIV (Miao et al., 2020)와 같은 다양한 데이터셋에 대한 실험을 수행합니다. 
  • 사실 기반 QA의 경우, Bamboogle (Press et al., 2023)과 StrategyQA (Geva et al., 2021)라는 두 데이터셋을 포함합니다. 
  • 합리적인 컴퓨팅 예산을 유지하기 위해, 우리는 각 데이터셋을 최대 500개의 테스트 샘플로 제한합니다. 
  • 500개보다 적은 테스트 샘플을 포함하는 데이터셋의 경우, 가능한 모든 테스트 샘플을 대신 사용합니다. 
  • 데이터셋의 자세한 내용은 표 3에 포함되어 있습니다.
  • 모델 및 프롬프팅에 대한 자세한 내용은 섹션 2의 초기 연구와 동일한 실험 설정을 사용합니다.

4.2 Main Results

  • To assess the effectiveness of our method, we evaluate on several reasoning tasks and report the main results in Table 2. 
  • Our main findings are as follows:
  • Contrastive CoT demonstrates consistent improvements over conventional CoT.
    • Contrastive CoT 는 산술 및 사실 기반 추론 범주의 모든 데이터셋에서 일관되게 기존의 사고 연쇄를 능가합니다. 
    • 특히, 우리는 GSMHard, SVAMP, ASDIV, Bamboogle 및 StrategyQA에서 10점 이상의 상당한 향상을 관찰했습니다. 
    • 따라서 일관되고 중요한 성능 향상은 우리의 제안된 방법의 일반적 효과를 입증합니다. 
    • contrastive chain of thought는 기존의 이유에서 자동으로 생성될 수 있으므로 주석 비용은 기존 사고 연쇄와 동일합니다. 
    • 따라서 이는 사고 연쇄의 일반적인 향상으로 볼 수 있습니다.
  • Contrastive CoT is more effective when applied with self-consistency. 
    • Self-consistency는 모델에게 여러 출력을 유도해서, 이를 앙상블 하는 것이다.
    • temperature 등 파라미터를 조절해서 추론을 여러 경로로 하는 것인듯?
    • 가장 기본적으로는 다수결로 답변을 선택하는 거지만, 다양한 방법으로 답변을 결정할 수 있다고 한다.
    • Self-consistency은 대규모 언어 모델의 사고 연쇄 성능을 향상시키기 위한 인기 있는 디코딩 전략입니다(Wang et al., 2022). 
    • 따라서 우리는 대조적 사고 연쇄가 자체 일관성에서 비슷한 이점을 누릴 수 있는지 살펴보기로 했습니다. 
    • 일반적으로, 우리는 자체 일관성이 대조적 사고 연쇄의 성능을 더욱 향상시킨다는 것을 관찰합니다. 
    • 이 향상은 특히 AQuA 데이터셋의 경우에 뚜렷하게 나타납니다. 
    • 대조적 사고 연쇄만으로는 성능이 미약하게 향상되는 4.0%에 그친다면, 자체 일관성을 적용함으로써 이 이득을 크게 증폭시켜 추가적인 14.2%의 향상을 달성합니다.

5 Related Work

  • Large Language Models 
    • 최근 대형 언어 모델의 발전은 모델의 크기와 학습 데이터를 대규모로 확장함으로써 일반화를 크게 향상시킬 수 있다는 것을 보여주었습니다 (Kaplan et al., 2020). 
    • 특히, 대형 언어 모델은 적절한 프롬프트와 데모가 주어졌을 때 새로운 작업에 대해 일반화할 수 있다는 것이 입증되었습니다 (Brown et al., 2020). 
    • 이는 추가적인 훈련 없이도 언어 모델을 작업에 활용하는 새로운 패러다임을 가져왔습니다 (Liu et al., 2023). 
    • 그러나 단순히 언어 모델의 크기를 확장하는 것만으로는 산술 추론 및 사실 기반 질문응답과 같은 어려운 작업에서 좋은 성능을 얻기에는 충분하지 않았습니다 (Wei et al., 2022b). 
    • 따라서 본 연구에서는 대형 언어 모델의 추론 능력을 프롬프트를 통해 향상시키는 데 초점을 맞추었습니다.
  • Chain of Thought 
    • Wei et al. (2022b)에 의해 소개된 사고 연쇄 프롬프팅은 중간 단계를 생성하여 언어 모델 추론을 향상시키기 위한 것입니다. 
    • 특히, 이는 단계별 추론 방향을 확장하는 다양한 작업에 영감을 주었습니다. 
    • 예를 들어, automatic chain-ofthought(Zhang et al., 2023)는 사고 연쇄 데모를 수동으로 주석 달기 어려웠던 문제를 해결하기 위해 제안되었습니다. 
    • 반면에, "Let’s think step-by-step"와 같은 특정 프롬프트가 언어 모델이 어떠한 데모 없이도 사고 연쇄를 제로샷 방식으로 수행할 수 있도록 도와줄 수 있다는 것이 보였습니다 (Kojima et al., 2022). 
    • 또한, 어려운 문제는 여러 하위 문제로 분해되거나 (Zhou et al., 2023) 자동으로 실행될 수 있는 코드 프로그램으로 분해될 수도 있습니다 (Gao et al., 2023). 
    • 여러 측면에서 사고 연쇄의 진전에도 불구하고, 우리는 여전히 그 밑에 있는 메커니즘에 대한 엄격한 이해가 부족합니다 (Turpin et al., 2023; Feng et al., 2023). 
    • 본 연구에서는 이전 연구 결과를 바탕으로 유효하지 않은 데모에 대한 발견에서 영감을 받아, 언어 모델 추론을 향상시키기 위해 대조적 사고 연쇄를 제안합니다. 
    • 대조적 사고 연쇄는 유효한 및 유효하지 않은 추론 데모를 모두 활용하기 때문에, 이는 다른 연구자들이 사고 연쇄 프로세스를 근본적으로 재고하도록 도와줄 것으로 믿습니다.
  • Learning from Negative Examples 
    • 사고 연쇄 프롬프팅은 일반적으로 유효한 데모만을 포함하지만, 유효하지 않은 데모도 추론 과정에 도움이 될 수 있는지는 명확하지 않습니다 (Wang et al., 2023). 
    • 반면에, 부정적이거나 유효하지 않은 샘플로부터 학습하는 것은 새로운 것이 아닙니다. 
    • 예를 들어, 대조적 학습은 모델이 "긍정적"과 "부정적" 샘플을 구별하여 더 나은 표현을 학습하도록 장려하는 잘 알려진 심층 학습 접근 방식입니다 (Khosla et al., 2020). 
    • 비슷하게, 인간 피드백으로부터 강화 학습 (RLHF)은 인간 선호 데이터의 긍정적 및 부정적 샘플에 기초하여 보상 모델을 훈련시킵니다 (Ouyang et al., 2022; Christiano et al., 2017). 
    • 따라서 이전 접근 방식에서 영감을 받아, 우리는 대조적 사고 연쇄를 제안합니다. 
    • 이는 모델이 유효한 및 유효하지 않은 추론 데모로부터 학습할 수 있도록 함으로써 사고 연쇄 프롬프팅의 일반적인 향상을 제공합니다.

6 Conclusions

  • 본 연구에서는 사고 연쇄를 향상시키기 위해 유효하지 않은 추론 데모를 활용하는 효과를 탐색했습니다. 
  • 다양한 유효하지 않은 사고 연쇄 범주에 대한 초기 연구를 통해, 유효한 및 유효하지 않은 데모를 대조적인 방식으로 제공하는 것이 언어 모델의 추론 능력을 크게 향상시킨다는 것을 발견했습니다. 
  • 유효하지 않은 이유를 수동으로 주석 달기 어려운 문제를 해결하기 위해, 우리는 대조적 사고 연쇄를 제안합니다. 
  • 이는 기존의 이유에서 대조적 데모를 자동으로 구성할 수 있는 일반적인 프롬프팅 방법입니다. 
  • 여러 추론 작업에서의 실험을 통해, 대조적 사고 연쇄가 사고 연쇄 프롬프팅의 일반적인 향상이라는 것을 발견했습니다. 
  • 사고 연쇄 프롬프팅의 대체 형태에 대한 추가적인 조사는 향후 언어 기반 추론의 발전을 기대할 수 있습니다.

Reference

댓글