◼ Comment

CoT에 대한 논문은 처음 읽어본 거 같다.

읽기전에 아래의 블로그를 참고하면 좋다
https://gagadi.tistory.com/50

이 논문은 6페이지로 작성된걸 보면.. 아직 미완성인거 같고 조만간 full paper로 어딘가에 publish되길 희망한다.

AK paper 추천에 뜬 논문으로 discussion은 다음의 위치에서 가능
https://huggingface.co/papers/2311.09277

어쨌든 기존의 CoT는 few-shot을 모델에 prompt해줄때 rationale을 넣어주게 되는데, 이게 성능 향상에 효과가 있다.
CCoT는 negative rationale인, 즉 잘못된 추론을 prompt에 같이 넣어주면 더 좋다는 것이다.

CCoT는 postive rationale에서 object(숫자나, entity)을 치환함으로써 만들어낼 수 있다.
본 논문에서는 5가지 유형의 negative rationale가 있음을 보여준다.
실제로, negative rationale을 manual로 생성해서 실험해보면 모두 효과가 있음을 보여준다.
하지만 이는 자동으로 생성한게 아닌 manual로 생성한 것이다.

main 실험에서는 자동으로 생성한 negative rationale에 대해 실험한다.

Incoherent Objects으로 negative rationale을 생성했고, 더욱 다양한 데이터에 대해서 실험한다.
여기서 entity을 검출하기 위해 이미 공개된 객체명 인식 모델을 활용했다고 한다.
그 결과 성능이 향상됨을 보여준다.. 신기한데?
그리고 self-consistency을 결합하면 더욱 성능이 올라간다.

CCoT는 CoT의 positive rationale을 활용하는 것이기 때문에 굳이 few-shot rationale을 위한 비용이 추가적으로 들지 않는 점이 있다.

Abstract

CoT의 성공에도 불구하고, 그 기저 과정은 여전히 잘 이해되지 않은 상태입니다.
논리적으로 타당한 추론은 사슬 사고에 필수적으로 중요한 것으로 보이지만, 이전 연구에서는 유효하지 않은 demonstrations를 사용할 때 최소한의 영향만 나타난 것이 놀라운 결과입니다.
더구나, 기존의 CoT는 언어 모델에게 어떤 실수를 피해야 하는지에 대한 정보를 제공하지 않아 더 많은 오류로 이어질 수 있습니다.
따라서 우리는 양성 및 음성 예제에서 모두 학습할 수 있는 인간의 학습 방식에서 영감을 받아 언어 모델 추론을 강화하는 "대조적 사슬 사고(Contrastive Chain of Thought)"를 제안합니다.
기존의 CoT와 비교하여 우리의 접근 방식은 유효한 및 무효한 추론 데모를 모두 제공하여 모델이 단계별로 추론하면서 추론 오류를 줄이도록 안내합니다.
일반화를 향상시키기 위해 대조적 데모를 만들기 위한 자동 방법을 도입합니다.
추론 벤치마크에서의 실험 결과는 Contrastive CoT가 CoT 프롬프트의 일반적인 향상 요소로 작용할 수 있다는 것을 보여줍니다.

1 Introduction

LLMs의 트렌드에 따라 모델 크기를 대규모로 확장하는 것은 높은 일반화를 가능케 하였으며(Brown 등, 2020), 적절한 프롬프트가 주어질 때 새로운 작업을 수행할 수 있는 능력이 나타났다(Wei 등, 2022a).
그러나 모델 크기만 증가시켜서는 복잡한 추론 작업을 해결할 수 없다는 한계가 있다(Rae 등, 2022).
이에 따라 연쇄적 추론 프롬프팅(chain-of-thought prompting)이 제안되었는데, 이는 중간 추론 단계를 생성함으로써 LLMs의 추론 능력을 해제하는 것을 목표로 한다(Wei 등, 2022b).

실제로 CoT을 기반으로 한 대부분의 방법은 문맥 학습(In-Context Learning)을 활용하며(Brown 등, 2020), input, CoT, 그리고 출력의 데모를 모델에 제공함으로써 작동한다(Chu 등, 2023).

그러나 성공에도 불구하고 연쇄적 추론에 대한 철저한 이해가 부족합니다(Cooper 등, 2021).

예를 들어, 유효하지 않은 추론을 보여주는 데모조차도 유효한 데모와 유사한 성능을 나타낼 수 있다는 것이 확인되었습니다(Wang et al., 2023).
잘못된 few-shot도 효과가 있다?
따라서 언어 모델이 연쇄적 추론 데모를 기반으로 효과적으로 추론하는 방법은 명확하지 않습니다.
반면에 중간 단계에서의 실수는 추론 과정을 복잡하게 만들고 방해할 수 있습니다(Ling 등, 2023).
추론 과정에서의 잠재적인 오류는 최종 결과의 정확성 뿐만 아니라 언어 모델의 신뢰성에도 영향을 미칩니다(Turpin 등, 2023).
따라서 중간 추론 단계에서의 오류를 줄이는 것도 중요합니다.
에러가 누적되는 느낌이기 때문에, 중간의 추론단계의 오류 잡는 것도 중요하다.

CoT의 챌린지에 대응하기 위해 우리는 인간이 긍정적인 예제뿐만 아니라 부정적인 예제에서도 학습할 수 있는 방식에서 영감을 받았습니다.

예를 들어, 중간 단계가 명확하지 않은 복잡한 작업을 해결할 때 긍정적인 데모로부터 올바른 단계를 학습하면서 동시에 부정적인 데모에서의 결함을 피하는 것이 유용합니다.
따라서 우리는 대조적 연쇄적 추론(contrastive chain of thought)을 제안합니다.
이는 긍정적이고 부정적인 데모를 모두 제공하여 언어 모델의 추론을 강화하는 방법입니다.
이로 인해 어떻게 효과적인 부정적 데모를 디자인하고 이를 다양한 작업에 일반화할 수 있는지에 대한 문제가 제기됩니다.
여러 유효하지 않은 추론 유형을 분석한 결과, 기존의 유효한 추론 체인에서 대조적 데모를 자동으로 생성할 수 있는 간단하고 효과적인 방법을 설계하였습니다.
더불어, 대조적 연쇄적 추론은 작업에 독립적이며 self-consistency와 같은 방법과 호환되므로 일반적인 연쇄적 추론의 일반적인 향상 요소로 기여할 수 있다고 믿습니다.
기존의 CoT에서부터 CCoT을 자동으로 생성?

대조적 연쇄적 추론의 효과를 측정하기 위해 다양한 추론 벤치마크에 대한 평가를 제시하고 중요한 이점을 확인했습니다.

특히, 널리 사용되는 LLM인 GPT-3.5-Turbo를 사용할 때 기존 CoT과 비교했을 때 GSM-8K(Cobbe 외, 2021)와 뱀보글(Press 외, 2023)의 경우 각각 9.8점과 16.0점이 향상되는 것을 관찰할 수 있습니다.
또한 우리의 방법에서 생성된 추론 체인의 추가적인 분석에서도 중요한 오류 감소가 나타났습니다.

요약하면, 우리의 주요 기여는 다음과 같습니다:

(1) 다양한 부적절한 추론 유형을 분석하고 긍정적 및 부정적 데모를 결합하면 연쇄적 추론의 효과를 일반적으로 향상시킨다는 사실을 발견했습니다.
(2) 위의 분석을 기반으로 언어 모델 추론을 향상시키기 위해 대조적 연쇄적 추론을 제안했습니다. 더불어, 대조적 데모를 자동으로 구성하기 위한 방법도 제안했습니다.
(3) 다양한 추론 벤치마크에서의 평가 결과는 기존의 연쇄적 추론에 비해 상당한 향상을 보여주고 있습니다.

2 Preliminary Study: Effect of Different Types of Contrastive Demonstrations

CoT 프롬프팅은 대형 언어 모델의 추론을 향상시켰지만 여전히 잘 이해되지 않은 부분이 있습니다.
예를 들어, 건전한 추론이 효과적인 연쇄적 추론에 직관적으로 중요해 보이지만, 이전 연구에서는 부적절한 데모를 사용할 때 효과가 거의 없다는 것을 보여주었습니다.
반면에 대조적 학습(Contrastive Learning)과 정렬(Alignment)의 이전 작업들은 언어 모델이 유효한 예제와 부적절한 예제에서 효과적으로 학습할 수 있는 방법을 보여 주었습니다 (Khosla 등, 2020; Ouyang 등, 2022).
따라서 우리는 다음과 같은 연구 질문을 가지고 예비 연구를 실시했습니다:

부적절한 추론 데모를 대신하여 연쇄적 추론을 향상시키는 데 사용할 수 있을까?

구체적으로 우리는 "대조적" 방식으로 연쇄적 추론 데모를 제공하는 효과를 연구하는 것이 목표입니다.
즉, 유효한 이유와 부적절한 이유를 모두 포함하는 데모를 포함합니다.

2.1 Components of Chain of Thought

표준 프롬프트와 in-context demonstrations를 비교하여 CoT 프롬프팅은 각 데모 예제에 대한 이유를 포함합니다.
각 이유는 중간 추론 단계의 일련의 과정으로 이루어져 있으며, 언어 모델이 과제를 단계별로 해결하도록 안내합니다.
(Wang 등, 2023)의 정의를 따라 각 CoT 이유의 두 가지 명확한 구성 요소를 식별합니다:

Bridging 오브젝트는 모델이 최종 해결책에 도달하기 위해 횡단하는 상징적인 항목들을 말합니다. 예를 들어, 이러한 오브젝트들은 산술 작업에서 숫자와 방정식일 수도 있고, 사실적인 작업에서는 엔터티의 이름일 수 있습니다.
Language templates은 언어 모델이 추론 과정에서 올바른 브리징 오브젝트를 유도하고 맥락화하기 위한 텍스트 힌트입니다.

2.2 What is Invalid Chain of Thought?

chain of thought의 구성 요소를 고려할 때, 이제 유효하지 않은 rationales의 근거를 식별하는 데 체계적으로 접근할 수 있게 되었습니다.
구체적으로 언어 및 대상 구성 요소에 적용되는 두 가지 주요 측면이 있습니다.

Coherence은 rationale의 단계를 올바르게 배열하는 것을 의미하며, 성공적인 CoT을 위해서는 필수적입니다. 구체적으로, CoT은 순차적 추론 과정이므로 후속 단계가 초기 단계의 선행 조건이 될 수는 없습니다.
Relevance은 근거에 질문으로부터 해당 정보가 포함되어 있는지 여부를 나타냅니다. 예를 들어, 질문에서 Leah라는 사람이 초콜릿을 먹는다고 언급한다면, 다른 사람이 머리를 자르는 것에 대해 논의하는 것은 관련이 없을 것입니다.
Coherenece는 CoT의 추론과정이 순차적이어야 된다는 것. 순서가 제대로 되야한다!
Relevance는 추론이 제대로 된 것이어야 한다는 것. 즉 질문으로부터 해당 정보가 포함되는지가 중요

또한, Wang 등(2023)의 연구를 따라 invalid reasoning을 불일치나 관련성이 없는 것이 아니라 논리적 오류를 포함한 invalid chain of thought의 범주로 포함합니다.

유효하지 않은 추론이란, 관련성이 없는것이 아니라 논리적 오류를 말한다?

따라서 우리의 목표는 Figure 2에 나와 있는 유효하지 않은 사고 체인의 다섯 가지 주요 범주를 연구하는 것입니다.

invalid reasoning: 그냥 잘못된 추론
incoherent objects: 숫자들이 뒤죽박죽 섞인것. 하지만 이 숫자들은 정답 CoT에서 나온 것. object는 숫자말고 사람이름일 수도 있음
incoherent language: 숫자는 맞지만, text 순서가 섞임
irrelevant objects: 숫자들이 그냥 다른 숫자들로 채워둠. 근데 추론과정은 또 맞는듯?
irrelevant language: 숫자는 맞지만, text가 그냥 다른 걸로 바뀜.

2.3 Experimental Setup

예비 연구를 위한 실험을 수행하기 위해, 산술(arithmetic) 및 사실 추론(factual reasoning)을 위해 각각 GSM8K (Cobbe 등, 2021) 및 Bamboogle (Press 등, 2023) 데이터셋을 활용합니다.
우리는 합리적인 비용으로 가장 인기 있는 및 성능이 우수한 언어 모델 중 하나인 OpenAI Chat Completions API를 사용합니다.
구체적으로 GPT-3.5-Turbo (0301) 버전을 사용합니다.
다양한 설정에서 대조적 시연의 효과를 연구하기 위해, 우리는 Figure 2에 나와 있는 다섯 가지 주요 invalid categories를 평가합니다.
각 데이터셋에 대해 4번의 프롬프팅을 사용하며, 사고 체인 시연은 이전 연구 (Wei 등, 2022b; Wang 등, 2023)에서 수동으로 작성되었습니다.

이전 연구에서 CoT을 하기 위해 수동으로 작성된게 있다고함

프롬프팅 프로세스를 표준화하기 위해, 우리는 Figure 1에 나와 있는 간소화된 사고 체인 프롬프트 형식을 사용합니다.
아마도 그림2의 잘못된 CoT을 wrong answer로 prompt에 넣어주는 것 같음.

2.4 Preliminary Results

Table 1의 예비 결과를 기반으로, 일반적인 CoT과 비교하여 모든 유효하지 않은 이성 범주에서 상당한 향상을 관찰합니다.
특히, contrastive demonstrations을 포함하는 대조적 시연을 활용한 사고 체인이 GSM8K와 Bamboogle에서 가장 높은 평균 성능을 보입니다.
이는 언어 모델이 유효한 및 유효하지 않은 근거를 모두 제공 받았을 때 단계별 추론을 더 잘 학습할 수 있다는 것을 시사합니다.
따라서 contrastive demonstrations이 언어 모델의 추론 능력을 크게 향상시킬 수 있는 잠재력이 있다고 믿습니다.

이 테이블의 결과는 invalid demonstrations은 수동으로 제작해서 실험한 것 같음

3 Contrastive Chain of Thought

CoT 프롬프팅은 이전 연구에서 언급되었듯이 (Wei et al., 2022b), 대규모 언어 모델의 추론 능력을 높였습니다.
그러나 이 현상에 대한 체계적인 이해는 아직 부족합니다.
논리적으로 타당한 추론은 사고의 연결 과정에서 중요한 역할을 하는 것으로 보이지만, 이전 연구에서는 invalid demonstrations를 사용했을 때 오히려 영향이 미미하다는 것이 놀라운 결과입니다.

이상한 reasoning few-shot을 줘도 효과가 미미하다는 연구가 있나봄

따라서 저희가 섹션 2에서의 초기 연구를 바탕으로 한 것에 따르면, "contrastive" 방식으로 유효한 및 유효하지 않은 추론 데모를 제공하는 것이 추론 성능을 크게 향상시킵니다.

그러나 이 접근 방식은 새로운 작업에 대해 일반화되지 않을 수 있습니다.
왜냐하면 이는 invalid rationales를 수동으로 구성해야하기 때문입니다.

따라서, 우리는 contrastive chain of thought라는 일반적인 프롬프팅 방법을 제안합니다.
이 방법은 대조적 데모를 자동으로 생성하는 것을 포함합니다.
그림 3은 우리의 접근 방식을 개략적으로 보여줍니다.

구체적으로, 언어 모델은 질문, 참답 설명 및 오답 설명을 제공받습니다.
표준 프롬프팅과 비교하여, 우리의 방법은 모델이 문제를 중간 단계로 분해하여 더 복잡한 추론을 수행할 수 있게 합니다.
기존의 사고 연쇄 프롬프팅과 비교하여, 우리의 방법은 유효한 및 유효하지 않은 답변 설명을 대조하여, 모델이 더 정확한 추론 연쇄를 생성하도록 안내합니다.
즉 자동으로 wrong explanation 하는게 컨트리뷰션인 것 같음

구체적으로, 주어진 소수의 n개의 문맥 내 데모 예제 D = {E1, . . . , E|n|}와 질의 Q가 있을 때, 모델의 목표는 적합한 답변 A를 생성하는 것입니다.
표준 프롬프팅의 경우, 데모 예제는 단순히 질문과 답변으로 구성됩니다.

즉, Ej = (Qj , Aj)입니다.

반면에, CoT는 중간 추론 단계 T를 사용하여 모델을 안내하는 더 발전된 프롬프팅 방법입니다.

위의 그림에서 보여진 것처럼, 추론 단계 T는 일반적으로 각 문장이 하나의 추론 단계를 설명하는 여러 문장으로 구성됩니다.
따라서 CoT 프롬프팅 예제는 질문, 추론 단계 및 최종 답변으로 구성됩니다.
즉, Ej = (Qj , Tj , Aj)입니다.

그러나 모델은 기존의 CoT에서 어떤 결함을 피해야 하는지 알지 못하며, 이는 잘못된 추론 단계와 오류 전파의 증가로 이어질 수 있습니다.

따라서 저희 대조적 사고 연쇄 방법은 데모 예제에서 올바른 추론 단계와 잘못된 추론 단계를 모두 제공합니다.
즉, Ej = (Qj , Tj,+, Aj,+, Tj,−, Aj,−)입니다.
그림에 있는 프롬프트에 대한 설명임

데모 예제의 올바른 추론 단계 T+를 얻기 위해, 이전 CoT works에서 주석이 달린 예제를 사용합니다.

incorrect reasoning 단계 T−의 경우, 우리는 섹션 2의 "Incoherent Objects" 범주를 기반으로 T+에서 자동으로 구성합니다.
다른 타입의 contrastive CoT는 시도 안한건가?
구체적으로, 주어진 CoT rationale로부터 숫자, 방정식 또는 사람과 같은 객체 영역을 추출하기 위해 기존의 entity recognition model을 사용합니다.
결과적으로, 우리는 이유 내 객체의 위치를 임의로 섞어 incoherent bridging objects를 포함하는 이유를 구성합니다.
새로운 질문을 테스트할 때는 질문과 데모 예제만 모델에 제공되며, 모델은 최종 답변을 생성하기 전에 자체 추론 단계를 생성해야 합니다.

4 Experiments

4.1 Experimental Setup

우리의 연구는 두 가지 주요 유형의 추론 작업에 초점을 맞추고 있습니다: arithmetic reasoning and factual question answering (QA).
산술 추론의 경우, 우리는 GSM8K (Cobbe et al., 2021), AQuA (Ling et al., 2017), GSM-Hard (Gao et al., 2023), SVAMP (Patel et al., 2021), ASDIV (Miao et al., 2020)와 같은 다양한 데이터셋에 대한 실험을 수행합니다.
사실 기반 QA의 경우, Bamboogle (Press et al., 2023)과 StrategyQA (Geva et al., 2021)라는 두 데이터셋을 포함합니다.
합리적인 컴퓨팅 예산을 유지하기 위해, 우리는 각 데이터셋을 최대 500개의 테스트 샘플로 제한합니다.
500개보다 적은 테스트 샘플을 포함하는 데이터셋의 경우, 가능한 모든 테스트 샘플을 대신 사용합니다.
데이터셋의 자세한 내용은 표 3에 포함되어 있습니다.
모델 및 프롬프팅에 대한 자세한 내용은 섹션 2의 초기 연구와 동일한 실험 설정을 사용합니다.

4.2 Main Results

To assess the effectiveness of our method, we evaluate on several reasoning tasks and report the main results in Table 2.
Our main findings are as follows:
Contrastive CoT demonstrates consistent improvements over conventional CoT.

Contrastive CoT 는 산술 및 사실 기반 추론 범주의 모든 데이터셋에서 일관되게 기존의 사고 연쇄를 능가합니다.
특히, 우리는 GSMHard, SVAMP, ASDIV, Bamboogle 및 StrategyQA에서 10점 이상의 상당한 향상을 관찰했습니다.
따라서 일관되고 중요한 성능 향상은 우리의 제안된 방법의 일반적 효과를 입증합니다.
contrastive chain of thought는 기존의 이유에서 자동으로 생성될 수 있으므로 주석 비용은 기존 사고 연쇄와 동일합니다.
따라서 이는 사고 연쇄의 일반적인 향상으로 볼 수 있습니다.

Contrastive CoT is more effective when applied with self-consistency.

Self-consistency는 모델에게 여러 출력을 유도해서, 이를 앙상블 하는 것이다.
temperature 등 파라미터를 조절해서 추론을 여러 경로로 하는 것인듯?
가장 기본적으로는 다수결로 답변을 선택하는 거지만, 다양한 방법으로 답변을 결정할 수 있다고 한다.
Self-consistency은 대규모 언어 모델의 사고 연쇄 성능을 향상시키기 위한 인기 있는 디코딩 전략입니다(Wang et al., 2022).
따라서 우리는 대조적 사고 연쇄가 자체 일관성에서 비슷한 이점을 누릴 수 있는지 살펴보기로 했습니다.
일반적으로, 우리는 자체 일관성이 대조적 사고 연쇄의 성능을 더욱 향상시킨다는 것을 관찰합니다.
이 향상은 특히 AQuA 데이터셋의 경우에 뚜렷하게 나타납니다.
대조적 사고 연쇄만으로는 성능이 미약하게 향상되는 4.0%에 그친다면, 자체 일관성을 적용함으로써 이 이득을 크게 증폭시켜 추가적인 14.2%의 향상을 달성합니다.

5 Related Work

Large Language Models

최근 대형 언어 모델의 발전은 모델의 크기와 학습 데이터를 대규모로 확장함으로써 일반화를 크게 향상시킬 수 있다는 것을 보여주었습니다 (Kaplan et al., 2020).
특히, 대형 언어 모델은 적절한 프롬프트와 데모가 주어졌을 때 새로운 작업에 대해 일반화할 수 있다는 것이 입증되었습니다 (Brown et al., 2020).
이는 추가적인 훈련 없이도 언어 모델을 작업에 활용하는 새로운 패러다임을 가져왔습니다 (Liu et al., 2023).
그러나 단순히 언어 모델의 크기를 확장하는 것만으로는 산술 추론 및 사실 기반 질문응답과 같은 어려운 작업에서 좋은 성능을 얻기에는 충분하지 않았습니다 (Wei et al., 2022b).
따라서 본 연구에서는 대형 언어 모델의 추론 능력을 프롬프트를 통해 향상시키는 데 초점을 맞추었습니다.

Chain of Thought

Wei et al. (2022b)에 의해 소개된 사고 연쇄 프롬프팅은 중간 단계를 생성하여 언어 모델 추론을 향상시키기 위한 것입니다.
특히, 이는 단계별 추론 방향을 확장하는 다양한 작업에 영감을 주었습니다.
예를 들어, automatic chain-ofthought(Zhang et al., 2023)는 사고 연쇄 데모를 수동으로 주석 달기 어려웠던 문제를 해결하기 위해 제안되었습니다.
반면에, "Let’s think step-by-step"와 같은 특정 프롬프트가 언어 모델이 어떠한 데모 없이도 사고 연쇄를 제로샷 방식으로 수행할 수 있도록 도와줄 수 있다는 것이 보였습니다 (Kojima et al., 2022).
또한, 어려운 문제는 여러 하위 문제로 분해되거나 (Zhou et al., 2023) 자동으로 실행될 수 있는 코드 프로그램으로 분해될 수도 있습니다 (Gao et al., 2023).
여러 측면에서 사고 연쇄의 진전에도 불구하고, 우리는 여전히 그 밑에 있는 메커니즘에 대한 엄격한 이해가 부족합니다 (Turpin et al., 2023; Feng et al., 2023).
본 연구에서는 이전 연구 결과를 바탕으로 유효하지 않은 데모에 대한 발견에서 영감을 받아, 언어 모델 추론을 향상시키기 위해 대조적 사고 연쇄를 제안합니다.
대조적 사고 연쇄는 유효한 및 유효하지 않은 추론 데모를 모두 활용하기 때문에, 이는 다른 연구자들이 사고 연쇄 프로세스를 근본적으로 재고하도록 도와줄 것으로 믿습니다.

Learning from Negative Examples

사고 연쇄 프롬프팅은 일반적으로 유효한 데모만을 포함하지만, 유효하지 않은 데모도 추론 과정에 도움이 될 수 있는지는 명확하지 않습니다 (Wang et al., 2023).
반면에, 부정적이거나 유효하지 않은 샘플로부터 학습하는 것은 새로운 것이 아닙니다.
예를 들어, 대조적 학습은 모델이 "긍정적"과 "부정적" 샘플을 구별하여 더 나은 표현을 학습하도록 장려하는 잘 알려진 심층 학습 접근 방식입니다 (Khosla et al., 2020).
비슷하게, 인간 피드백으로부터 강화 학습 (RLHF)은 인간 선호 데이터의 긍정적 및 부정적 샘플에 기초하여 보상 모델을 훈련시킵니다 (Ouyang et al., 2022; Christiano et al., 2017).
따라서 이전 접근 방식에서 영감을 받아, 우리는 대조적 사고 연쇄를 제안합니다.
이는 모델이 유효한 및 유효하지 않은 추론 데모로부터 학습할 수 있도록 함으로써 사고 연쇄 프롬프팅의 일반적인 향상을 제공합니다.

6 Conclusions

본 연구에서는 사고 연쇄를 향상시키기 위해 유효하지 않은 추론 데모를 활용하는 효과를 탐색했습니다.
다양한 유효하지 않은 사고 연쇄 범주에 대한 초기 연구를 통해, 유효한 및 유효하지 않은 데모를 대조적인 방식으로 제공하는 것이 언어 모델의 추론 능력을 크게 향상시킨다는 것을 발견했습니다.
유효하지 않은 이유를 수동으로 주석 달기 어려운 문제를 해결하기 위해, 우리는 대조적 사고 연쇄를 제안합니다.
이는 기존의 이유에서 대조적 데모를 자동으로 구성할 수 있는 일반적인 프롬프팅 방법입니다.
여러 추론 작업에서의 실험을 통해, 대조적 사고 연쇄가 사고 연쇄 프롬프팅의 일반적인 향상이라는 것을 발견했습니다.
사고 연쇄 프롬프팅의 대체 형태에 대한 추가적인 조사는 향후 언어 기반 추론의 발전을 기대할 수 있습니다.

Reference

https://arxiv.org/pdf/2311.09277.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-202, Contrastive Chain-of-Thought Prompting, Preprint

◼ Comment

Abstract

1 Introduction

2 Preliminary Study: Effect of Different Types of Contrastive Demonstrations

2.1 Components of Chain of Thought

2.2 What is Invalid Chain of Thought?

2.3 Experimental Setup

2.4 Preliminary Results

3 Contrastive Chain of Thought

4 Experiments

4.1 Experimental Setup

4.2 Main Results

5 Related Work

6 Conclusions

댓글

댓글 쓰기