NL-224, Large Language Models for Data Annotation: A Survey, Preprint 2024

◼ Comment

  • LLM을 활용하는 것과 관련된 논문이다.
  • 서베이 논문이니 특정 기술을 상세히 다룬다기보다, 이러이러한 논문이 있다 소개하는 정도이다.
  • "LLM을 어떻게 활용하는 가?"에 대해 알아보고 싶다면 읽어보면 좋은 논문이다. (데이터 어노테이션에 관한 내용이 주요 내용이긴 하다)
    • LLM 기반 어노테이션 생성: 다양한 데이터 유형(예: 지시 및 응답, 논리적 설명, 쌍별 피드백, 텍스트 피드백, 기타 도메인 특화 데이터)에 대한 어노테이션 생성 과정을 깊이 탐구합니다. 또한 어노테이션 과정에서 고려해야 할 기준(예: 다양성 및 품질)도 논의합니다.
    • LLM이 생성한 어노테이션 평가: 어노테이션의 품질을 평가하는 다양한 방법과 많은 옵션 중에서 고품질 어노테이션을 선택하기 위한 전략을 탐구합니다.
    • LLM이 생성한 어노테이션 활용: LLM이 생성한 어노테이션을 기반으로 머신러닝 모델을 훈련하기 위한 다양한 단계(예: 지도 학습을 위한 미세 조정, 정렬 튜닝, 추론 시간)에서의 방법론을 조사합니다.
    • 사회적 영향과 향후 과제: 편향 및 그로 인한 영향과 같은 윤리적 딜레마에서부터 환각 및 효율성 문제 등 기술적 한계에 이르기까지, LLM이 생성한 어노테이션의 다양한 이슈들을 논의합니다.
  • 데이터생성도 단순히 생성하는게 아니라, 여러 방법으로 생성할 수 있다고 한다
    • 그림 1의 맨 왼쪽이고 그림 2에서 좀 더 자세히 다룬다
    • 최근에 많은 연구들이 llm으로 데이터 확장 및 생성해서 테스크 성능을 높이는 형식으로 많이들 한다.
    • 그런 논문들을 일부 읽어본게 다지만, 여기서 Ref단 논문을 다 읽는다면? 어느정도 연구 히스토리를 파악할 수 있을것 같다
  • 생성된 데이터가 잘 생성됐는지 평가도 해보는 연구도 있다
    • 그림 1의 가운데
    • 일반적으로 평가하는것과 테스크에 맞게 평가하는 방법이 연구된다
    • 생성된 데이터를 활용하기 전에 필터링하고 좋은것만 선택해서 사용하는 과정도 다룬다
  • 생성된 데이터를 활용하는 방법도 소개된다
    • 그림 1의 오른쪽
    • 일반적으로는 small model 학습하는데 쓸것이다.
    • 단순히 fine-tuning하는 것이 끝이 아니라, reward / policy 등 다양하게 정렬 하는 방법에 대한 연구도 있다고 한다
  • 인퍼런스도 소개되는데
    • ICL 방법 (CoT)이나 리즈닝과 관련된 연구들도 소개해준다
  • 챌린지 / 미래 연구
    • model collapse 부분은 머리속으로는 알고 있었으나 생각은 안해봤던 것인데, 이런 연구도 나름 재밌을거 같긴는 하다.
    • hallucination은 뭐 워낙 유명한 문제니까..
    • llm의 효율성은 llm의 이전부터 BERT 시절부터 연구가 있었는데, llm 이후의 압축 논문은 잘모르지만 궁금하면 여기 ref 살펴보면 좋을거 같다.
    • Pruning, compression, distillation 등 다양하게 모델 사이즈를 줄이는 연구가 있다는 것 정도?

0 Abstract

  • 데이터 어노테이션은 일반적으로 원시 데이터를 레이블링하거나 관련 정보를 생성하는 과정을 의미하며, 이는 머신러닝 모델의 효율성을 향상시키는 데 사용될 수 있습니다. 
  • 하지만 이 과정은 노동 집약적이며 비용이 많이 듭니다. 
  • GPT-4로 대표되는 고급 대형 언어 모델(LLM)의 등장은 복잡한 데이터 어노테이션 과정을 자동화할 수 있는 전례 없는 기회를 제공합니다. 
  • 기존의 설문 조사에서는 LLM의 아키텍처, 훈련, 일반적인 응용 분야를 광범위하게 다루었으나, 우리는 LLM의 데이터 어노테이션에서의 특정 유용성에 초점을 맞추고 있습니다. 
  • 이 설문 조사는 LLM 기반 어노테이션 생성, LLM 생성 어노테이션 평가, LLM 생성 어노테이션 활용의 세 가지 핵심 측면에 기여합니다. 
  • 또한, LLM이 어노테이션할 수 있는 데이터 유형에 대한 심층적인 분류 체계, LLM이 생성한 어노테이션을 활용하는 모델을 위한 학습 전략에 대한 포괄적인 리뷰, 그리고 LLM을 데이터 어노테이션에 사용하는 데 따른 주요 과제와 한계에 대한 자세한 논의를 포함하고 있습니다. 
  • 이 설문 조사는 연구자와 실무자들이 데이터 어노테이션에 최신 LLM의 잠재력을 탐구하는 데 중요한 가이드 역할을 하여 이 중요한 분야에서의 미래 발전을 촉진하는 것을 목표로 합니다.

1 Introduction

  • 머신러닝 및 자연어 처리(NLP)의 복잡한 영역에서 데이터 어노테이션은 중요한 동시에 도전적인 과제입니다. 
  • 단순한 라벨 부착을 넘어, 기본적이거나 보조적인 정보를 포함하는 다양한 작업을 아우릅니다. 
  • 이 세부 과정에는 
    • ❶ 기본 분류를 위한 클래스 또는 태스크 라벨로 원시 데이터를 분류하는 것, 
    • ❷ 맥락적 깊이를 더하기 위한 중간 라벨 부착(Yu et al., 2022), 
    • ❸ 어노테이션 신뢰성을 평가하기 위한 신뢰도 점수 부여(Lin et al., 2022), 
    • ❹ 특정 기준이나 사용자 요구에 맞게 출력을 조정하기 위한 정렬 또는 선호 라벨 적용, 
    • ❺ 데이터셋 내에서 엔티티 간의 상호작용을 이해하기 위한 엔티티 관계 어노테이션(Wadhwa et al., 2023), 
    • ❻ 문장에서 엔티티가 수행하는 기본 역할을 정의하기 위한 의미적 역할 표시(Larionov et al., 2019), 
    • ❼ 이벤트나 행동의 순서를 포착하기 위한 시간적 시퀀스 태깅(Yu et al., 2023)이 포함됩니다.
  • 이러한 광범위한 응용에도 불구하고, 데이터 어노테이션은 데이터의 복잡성, 주관성, 다양성으로 인해 현존하는 머신러닝 모델들에게 상당한 도전 과제를 제시합니다. 
  • 이 과정은 도메인 전문 지식이 필요하며, 특히 대규모 데이터셋에 수작업으로 라벨을 부착하는 경우 많은 자원을 소모합니다. 
  • GPT-4(OpenAI, 2023), Gemini(Team et al., 2023), LLaMA-2(Touvron et al., 2023b)와 같은 고급 대규모 언어 모델(LLM)은 데이터 어노테이션을 혁신할 유망한 기회를 제공합니다. 
  • LLM은 단순한 도구 이상으로서 데이터 어노테이션의 효율성과 정밀도를 향상시키는 데 중요한 역할을 합니다. 
  • LLM은 어노테이션 작업을 자동화(Zhang et al., 2022)하고, 대량의 데이터에서 일관성을 보장(Hou et al., 2023)하며, 특정 도메인에 맞게 미세 조정 또는 프롬프트 기반으로 적응할 수 있는 능력(Song et al., 2023)을 통해 전통적인 어노테이션 방법에서 겪는 어려움을 크게 완화시킵니다. 
  • 이는 NLP와 머신러닝의 데이터 어노테이션에서 달성할 수 있는 기준을 새롭게 설정하고 있습니다.
  • 본 조사는 데이터 어노테이션을 위한 LLM의 사용에 대해 탐구하며, 이 혁신적인 접근법의 방법론, 활용 전략, 관련 도전 과제를 다룹니다. 
  • 이를 통해 LLM을 데이터 어노테이션의 판도를 재정의하는 촉매제로 받아들이는 이유를 조명하고자 합니다. 
  • 우리는 이 조사를 통해 LLM을 데이터 어노테이션에 활용하는 데 있어 네 가지 주요 공헌을 합니다.
    • LLM 기반 어노테이션 생성: 다양한 데이터 유형(예: 지시 및 응답, 논리적 설명, 쌍별 피드백, 텍스트 피드백, 기타 도메인 특화 데이터)에 대한 어노테이션 생성 과정을 깊이 탐구합니다. 또한 어노테이션 과정에서 고려해야 할 기준(예: 다양성 및 품질)도 논의합니다.
    • LLM이 생성한 어노테이션 평가: 어노테이션의 품질을 평가하는 다양한 방법과 많은 옵션 중에서 고품질 어노테이션을 선택하기 위한 전략을 탐구합니다.
    • LLM이 생성한 어노테이션 활용: LLM이 생성한 어노테이션을 기반으로 머신러닝 모델을 훈련하기 위한 다양한 단계(예: 지도 학습을 위한 미세 조정, 정렬 튜닝, 추론 시간)에서의 방법론을 조사합니다.
    • 사회적 영향과 향후 과제: 편향 및 그로 인한 영향과 같은 윤리적 딜레마에서부터 환각 및 효율성 문제 등 기술적 한계에 이르기까지, LLM이 생성한 어노테이션의 다양한 이슈들을 논의합니다.
  • LLM 응용의 이 저평가된 측면에 초점을 맞춘 본 조사는 어노테이션 목적으로 LLM을 배포하려는 학계 및 실무자들에게 유용한 가이드가 되는 것을 목표로 합니다.
  • 본 조사에서는 주로 순수 언어 모델에 초점을 맞추며, 최근 등장한 LLaVA(Liu et al., 2023b)와 같은 멀티모달 LLM은 광범위하게 다루지 않습니다. 
  • **그림 1**은 본 조사의 일반적인 구조를 보여줍니다. 
  • 또한, **부록 A**에는 LLM을 어노테이션에 활용할 수 있는 잠재적 도구 목록과 설명 예시가 포함되어 있습니다.
  • 다른 LLM 관련 조사와의 차이점: 
    • NLP 분야의 기존 조사들은 주로 LLM의 구조적 특성(Zhao et al., 2023a), 학습 방법론(Liu et al., 2023d), 평가 프로토콜(Chang et al., 2023)을 포괄적으로 다루며, 주로 기계 번역(Min et al., 2021), 정렬(Wang et al., 2023f), 코드 생성(Zan et al., 2023), 의료 분석(Thirunavukarasu et al., 2023) 등 특정 최종 과업에 대한 모델의 기능에 초점을 맞추고 있습니다. 
  • 이에 반해, 본 조사는 이 강력한 차세대 LLM을 복잡한 데이터 어노테이션 영역에 적용하는 것에 중점을 둠으로써 차별화되며, 이는 중요한 동시에 아직 충분히 탐구되지 않은 분야입니다.

2 Preliminaries

  • 이 섹션에서는 주석(annotation) 과정에 대한 접근 방식을 다룹니다. 
  • 우리는 두 가지 핵심 모델을 소개합니다: 
    • 입력 데이터를 주석으로 매핑하는 주석자 모델 A와, 
    • 이러한 주석 데이터를 활용하여 특정 작업을 수행하거나 학습하는 작업 학습자 L입니다. 
  • 우리의 주요 초점은 GPT-4(OpenAI, 2023)와 LLaMA(Touvron et al., 2023a)와 같은 고급 LLM을 주석자(A)로 사용하는 것이며, 작업 
  • 학습자(L)는 또 다른 대형 모델(Chiang et al., 2023a)일 수도 있고, BERT(Devlin et al., 2018)와 같이 덜 복잡한 모델일 수도 있습니다. 
  • 이 작업 학습자는 주석된 데이터를 사용하여 지정된 작업을 수행합니다. 
  • 예시로, GPT4(A)로 데이터 만든 데이터로 BERT(L)를 학습시킨다
  • LLM이 생성한 주석은 범주형 레이블을 포함하며, 원시 데이터 포인트에 다양한 보조 신호를 추가합니다. 
  • 이러한 주석은 신뢰도 점수, 맥락적 세부 사항 및 기타 메타데이터를 포함하여 전통적인 범주형 레이블을 넘어 확장됩니다.

3 LLM-Based Annotation Generation

  • LLM의 등장으로 인해 고품질의 맥락에 민감한 데이터 주석에 대한 큰 관심이 생겨났습니다. 
  • 이 섹션에서는 LLM을 통해 생성된 다양한 종류의 주석에 대해 논의합니다.

3.1 Instruction & Response

  • 지시문(instruction)과 응답(response)은 LLM의 미세 조정(fine-tuning) 및 문맥 학습(ICL)을 위한 데이터셋을 구성하는 두 가지 기본 요소입니다. 
  • 이전의 NLP 데이터셋은 주로 인간 주석자에 의존하여 구축되었습니다. 
  • 최근에는 LLM의 등장과 함께 자동화 및 생성 방법이 데이터 주석에서 더욱 주목받고 있습니다.
  • Instruction Diversity.
    • Instrution Diversity은 LLM 학습에 있어 매우 중요하다는 것이 입증되었습니다(Li et al., 2023e; Song et al., 2024b,a). 
    • 최근 연구들은 원본 데이터셋에서 지시문의 다양성을 늘리고 강화하는 다양한 방법을 탐구하고 있습니다. 
    • 예를 들어, Yoo et al. (2021)은 두 개의 서로 다른 샘플을 혼합하여 새로운 샘플을 생성함으로써 데이터의 다양성을 높였습니다. 
    • Wang et al. (2022b)은 몇 개의 수작업으로 작성된 초기 지시문을 사용하여, 생성 후 필터링하는 파이프라인을 통해 반복적으로 이를 확장했습니다. 
    • 또한, Meng et al. (2023)과 Wang et al. (2024c)은 원본 데이터셋에서 지시문 생성 모델을 훈련하여 지시문의 다양성을 증대했습니다. 
    • Gupta et al. (2023)은 다단계 프롬프트 방식을 사용하여 먼저 작업 설명을 생성하고, 이를 인스턴스 시드로 활용해 LLM의 지시문 생성을 유도했습니다. 
    • Wang et al. (2023c)은 유익하고 다양한 예시를 얻기 위해, LLM을 활용한 설명 후 생성(explain-then-generate) 파이프라인을 제안하여 반복적인 데이터 합성을 진행했습니다. 
    • 이 외에도, Li et al. (2023a)은 주어진 샘플을 여러 번 패러프레이즈(paraphrase)하여 LLM이 이를 다양한 관점에서 이해하도록 돕습니다. 
    • Köksal et al. (2024)은 초기 시드 데이터의 다양성을 확보하기 위해 클러스터링 기반 데이터 선택 방법을 제안했습니다. 
    • 최근 Yu et al. (2024)은 LLM 기반 데이터 주석에서 다양성과 비용 간의 균형을 효과적으로 맞추는 방법으로 AttrPrompt를 도입했습니다.
    • LLM으로 기존 데이터를 활용해서 instruction을 다양하게 만들어서 데이터 확장하면, 효과가 괜찮다는거 같음? 나름 많은 연구가 있어보임
  • Response Quality.
    • 고품질 응답은 효과적인 미세 조정(fine-tuning) 및 문맥 학습(ICL)에 필수적입니다(Luo et al., 2024). 
    • 생성된 응답의 품질을 높이기 위해, Zhang과 Yang (2023a)은 응답 생성을 독해 과제로 설정하고 LLM을 위한 상세한 프롬프트를 작성했습니다. 
    • Huang et al. (2023)은 자기 일관성(self-consistency, Wang et al., 2022b)을 응답 생성에 도입하여, 신뢰도 점수가 가장 높은 후보 응답을 선택했습니다. 
    • 또한, Yang et al. (2024b)은 자기 증류(self-distill)를 제안하고, 원래 응답을 다시 작성하여 지시문 튜닝 데이터셋을 보강했습니다. 
    • Pang et al. (2024b)은 사회적 시뮬레이션을 통해 LLM이 고품질의 인간 중심 응답을 생성하도록 했습니다. 
    • Liu et al. (2024)은 질문 분석, 답변 가이드, 안전한 답변 생성 등을 포함한 다단계 프롬프트 방식을 도입하여 응답 생성 파이프라인을 개선했습니다. 
    • Guo et al. (2024a)은 관련 문서를 제공하는 검색 강화 문맥 학습(retrieval-augmented ICL)을 통해 LLM의 출력 품질을 향상시켰습니다. 
    • Sun et al. (2024b)와 Wang et al. (2024a)은 원칙 기반 프롬프트를 통해 정교하고 상세한 원칙으로 LLM을 안내하여, LLM이 인간의 가치에 부합하는 응답을 제공하도록 했습니다.
    • 다양한 방법으로 response 퀄리티를 높이려고 하는 연구도 있다

3.2 Rationale

  • 근거(rationale)는 주어진 질문을 해결할 때 개인이 따르는 상세한 사고 과정과 추론 경로를 반영하며, 최종 답변 예측을 위한 중요한 보조 정보로 간주됩니다. 
  • 초기 연구(Ling et al., 2017; Cobbe et al., 2021; Wei et al., 2022)에서는 각 데이터셋의 근거가 인간 전문가에 의해 주석 처리되어, 그 가용성과 확장성이 크게 제한되었습니다. 
  • Kojima et al. (2022)은 처음으로 LLM에서 연쇄 추론(CoT) 접근법의 효용성을 확인하고, LLM이 스스로 생성한 근거를 통합함으로써 추론 능력을 강화할 수 있음을 입증했습니다.
  • Rationale Structure.
    • Kojima et al. (2022)를 따르면서, LLM의 추론 과정을 다양한 구조와 형식으로 추상화하는 데 대한 관심이 커지고 있습니다. 
    • 이에는 트리 구조(Hao et al., 2023; Yao et al., 2024), 그래프(Besta et al., 2024; Yao et al., 2023), 테이블(Wang et al., 2024e), 프로그램(Chen et al., 2023e), 재귀(Qi et al., 2023), 그리고 개념(Tan et al., 2023) 등이 포함됩니다.
  • Rationale Quality
    • 고품질의 세부적인 근거를 생성하기 위해 다양한 방법론이 사용되고 있습니다.
    • Wang et al. (2022a)은 고정된 LLM을 프롬프트하여 샘플의 각 선택지를 설명하는 선택 특정 근거를 생성하도록 했습니다. 
    • Wang et al. (2023b)은 gold-standard answers을 고려하여 더 그럴듯한 근거를 유도하기 위해 contrastive decoding을 적용했습니다. 
    • Liu et al. (2023a)은 GPT-4에서 고품질의 근거를 유도하기 위해 세심하게 설계된 프롬프트를 작성하고, 논리적 CoT 지시문 튜닝 데이터셋을 구축했습니다. 
    • 세부적인 근거를 얻기 위해, Shridhar et al. (2023)은 원래 질문을 일련의 하위 질문-해결 쌍으로 분해하고 이를 각각에 대해 CoT를 생성하는 소크라틱 CoT(Socratic CoT)를 도입했습니다. 
    • 또한, Kang et al. (2024)은 지식 집약적 추론 작업에서 근거 생성을 위한 보조 관련 문서를 획득하기 위해 신경 재정렬기(neural reranker)를 제안했습니다.
    • 세부적인 근거를 위해 프롬프트를 건드리거나, 질문을 쪼개거나, 보조관련 문서?등을 활용하는 등등의 연구가 있는듯
  • Human-like Rationale.
    • 합성된 근거에서 또 다른 흥미로운 방향은 추론 과정을 더 인간답게 만드는 것입니다. 
    • 많은 연구가 문제 해결에서 인간의 다양한 사고를 모방하고, 주어진 질문에 대해 여러 추론 경로를 샘플링하는 방식(Gao et al., 2021; Wang et al., 2022b; Chen et al., 2023f; Liu et al., 2023c)을 채택하고 있습니다. 
    • 이후 연구들(Tong et al., 2023; Balepur et al., 2023; Ma and Du, 2023)은 LLM에서 제거 추론(elimination reasoning)을 탐구하며, 각 추론 경로를 역으로 검토하고 잘못된 후보를 제거합니다. 
    • 또한, 다양한 연구들(Yin et al., 2023; Liang et al., 2023; Xu et al., 2023d; Liu et al., 2023e)은 개별 LLM 간의 동료 협력과 토론을 탐구하여 인간처럼 논의하는 과정으로서의 근거를 포착하고자 합니다.

3.3 Pairwise Feedback

  • 고품질의 인간 피드백이 LLM(대규모 언어 모델)의 가치와 선호도를 인간과 일치시키는 데 효과적임이 입증되었지만, 최근 발전은 이 쌍별 피드백 메커니즘을 자동화하는 방향으로 나아가고 있습니다.
  • Ranking with LLMs.
    • 하나의 기술은 여러 응답을 샘플링하고, LLM이 다양한 기준에 따라 이러한 후보 응답의 순위를 매기는 것입니다(Bai et al., 2022; Lee et al., 2023b; Yuan et al., 2024). 
    • Sun et al.(2024a)은 초기 정책 모델에서 두 개의 응답을 샘플링하고, 모델을 사용해 인간이 작성한 원칙에 따라 선호하는 응답을 선택합니다(Sun et al., 2024b). 
    • Zhang et al.(2024a)은 각 응답에 대한 질문을 생성하고, LLM의 답변에 대한 신뢰도를 바탕으로 사실성을 측정하는 자기 평가 메커니즘을 제안합니다. 
    • Pace et al.(2024)은 합성 데이터 품질을 개선하기 위해 Best-of-N 및 Worst-of-N 샘플링 전략을 결합하고 West-of-N 접근법을 도입했습니다. 
    • 이들은 사전 학습된 선호 모델에 따라 가장 높은 점수와 가장 낮은 점수를 받은 응답을 식별하여 데이터 쌍을 구성했습니다. 
    • 로봇공학에서는 Zeng et al.(2024)이 LLM의 자체 순위 응답을 통해 보상 함수를 반복적으로 업데이트하여 인간 감독 없이 학습 효율성을 향상시켰습니다.
    • LLM이 랭킹에서 쓰는 데이터를 만들기 위해 적절하긴함. 응답순위매겨서 good-bad 쌍 만든다고 생각하면 되는데, 이때 샘플링전략 연구등이 있는 듯
  • Direct Construction.
    • 자동 쌍별 피드백 생성을 위한 또 다른 노력은 다양한 품질의 응답을 직접 생성하는 것입니다(Feng et al., 2024; Lee et al., 2024a). 
    • 이를 달성하기 위해, 연구자들은 응답 품질에 영향을 미치는 요인을 결정할 때 다양한 가정을 해야 합니다. 
    • 예를 들어, Kim et al.(2023b)은 더 큰 LLM과 더 많은 샘플이 더 나은 응답을 제공할 것이라고 가정하고, 이를 바탕으로 합성된 쌍을 생성합니다. 
    • Tong et al.(2024b)은 감독된 미세 조정 모델이 미세 조정되지 않은 기본 모델보다 더 잘 수행된다는 경험 법칙을 따릅니다. 
    • 이러한 기준에 따라 소수의 시드 데이터를 사용하여 모델을 반복적으로 훈련하고 비교 데이터 쌍을 합성합니다. 
    • Yang et al.(2023c)은 LLM이 주어진 원칙을 따르거나 위반하도록 지시하여 품질 차이를 만듭니다. 
    • Xu et al.(2023c)은 더 주관적으로 응답 품질을 측정하기 위해 여러 LLM을 도입하고 벤치마크 점수를 활용하여 우위를 정의합니다.
    • 직접적으로 데이터를 만들어서 활용하는 경우도 있다

3.4 Textual Feedback

  • LLM(대규모 언어 모델)이 생성한 텍스트 피드백(Pan et al., 2024)은 일반적으로 현재 출력의 단점을 강조하거나 특정 개선 사항을 제안하며, 생성된 응답을 다듬거나 평가하는 데 있어 풍부하고 유용한 정보를 제공합니다. 
  • 많은 기존 연구들은 적절한 프롬프트를 맞춤화하여 LLM(대규모 언어 모델)이 질문 응답(Madaan et al., 2024; Shinn et al., 2024), 기계 번역(Chen et al., 2023c; Raunak et al., 2023), 환각 감지(Yang et al., 2023d; Manakul et al., 2023)와 같은 다양한 작업에서 유익한 피드백을 생성하도록 지시하고 있습니다. 
  • 일부 연구에서는 LLM의 추론(Du et al., 2023a; Xu et al., 2023d; Cohen et al., 2023; Fu et al., 2023) 및 평가(Li et al., 2023d; Chu et al., 2024b; Ning et al., 2024) 능력을 향상시키기 위해 토론과 동료 평가를 피드백으로 활용하는 방법을 탐구했습니다. 
  • 또한, LLM이 생성한 원치 않거나 잘못된 응답의 원인을 분석하여, 이전 실수로부터 반성하고 학습할 수 있도록 돕는 노력도 이루어졌습니다(Wang and Li, 2023; An et al., 2023; Chen et al., 2023a; Tong et al., 2024a).
  • 그림 2를 보면, 첫번째 llm 출력이 제대로 됐는지 llm에게 다시 물어서 피드백받아서 출력을 다시 받는듯? 즉 기존출력까지 연속적으로 llm에게 던져서 더 나은 출력을 나오게 하는 느낌

3.5 Other Domain-specific Data

  • LLM(대규모 언어 모델)에서 다중 라운드 대화를 증류하는 것은 고품질의 대화 데이터 세트를 구축하거나(Kim et al., 2023a; Xu et al., 2023b; Chen et al., 2023b; Li et al., 2024d) 
    • 기존 데이터 세트를 향상시키는(Zheng et al., 2023; Chen et al., 2022; Zhou et al., 2022a) 매우 비용 효율적인 접근 방식입니다. 
  • 그래프 및 표 형식의 데이터에서는 여러 연구에서 LLM을 프롬프트로 사용해 이러한 구조적 데이터를 맥락화(Xiang et al., 2022; Kim et al., 2023a; Li et al., 2024b; Ronzano and Nanavati, 2024)하거나, 원문 텍스트에서 구조적 통찰을 증류하는(Bi et al., 2024; Li et al., 2024c; Ding et al., 2024; Xiong et al., 2024; Tuozzo, 2022) 방법을 탐구하고 있습니다.
  • 또한 LLM은 로봇 및 에이전트 연구에서도 널리 채택되어, 계획을 생성하는(Huang et al., 2022; Brohan et al., 2023; Rana et al., 2023; Singh et al., 2023; Lin et al., 2023a), 시뮬레이션 작업(Wang et al., 2023a; Ha et al., 2023) 및 감독 신호(Kwon et al., 2022; Du et al., 2023b; Tan et al., 2024b, a)를 생성하는 숙련된 데이터 주석자로서 역할을 하고 있습니다. 
  • 그 외에도 LLM은 다중 모달(Li et al., 2023f; Yin et al., 2024; Chen et al., 2024a; Li et al., 2024f), 추천 시스템(Acharya et al., 2023; Shen et al., 2024; Wei et al., 2024; Zhang et al., 2024b), 정보 추출(Josifoski et al., 2023; Jeronymo et al., 2023; Li et al., 2024a; Ma et al., 2024; Bonn et al., 2024) 등 다양한 인공지능 분야에서 효율적인 데이터 주석자로서 활용되고 있습니다(Chu et al., 2024a; Bhattacharjee et al., 2024; Martorana et al., 2024; Hsu et al., 2024).

4 LLM-Generated Annotations Assessment

  • LLM(대규모 언어 모델)이 생성한 주석을 효과적으로 평가하는 것은 그 잠재력을 완전히 활용하는 데 매우 중요합니다. 
  • 이 섹션에서는 두 가지 주요 측면에 중점을 둡니다:

4.1 Evaluating LLM-Generated Annotations

  • 이 소섹션에서는 인간이 주도하는 방법부터 자동화된 방법까지 주석의 품질을 평가하는 다양한 방법을 탐구합니다.
  • General Approaches: 
    • 연구에서는 LLM 주석을 평가하기 위한 다양한 방법을 조사했습니다. 
    • Efrat과 Levy(2020)가 제안한 "Turking Test"는 LLM이 데이터 주석 지침을 얼마나 잘 따르는지를 평가하며, 인간 주석자가 SNLI(Bowman et al., 2015), SQuAD(Rajpurkar et al., 2016), NewsQA(Trischler et al., 2016)와 같은 벤치마크와 LLM 출력을 비교합니다. 
    • 유사하게, Honovich et al.(2022)는 LLM이 지침에 따라 생성한 데이터 세트의 독창성, 정확성, 다양성을 수동으로 평가했습니다. 
    • 또한 Alizadeh et al.(2023)과 같은 연구는 관련성 및 주제 감지와 같은 작업에서 오픈 소스 LLM의 성능을 인간이 주석한 라벨과 비교하여 측정했습니다.
    • LLM이 생성한 데이터가 얼마나 좋은가를 사람들이 평가해보는 연구들
  • Task-Specific Evaluations:
    • 평가 방법론은 응용 분야에 따라 달라집니다. 
    • 예를 들어, 지식 그래프 강화에서는 토큰 순위 매트릭스를 사용하여 LLM이 사실 완성에 기여한 정도를 평가합니다. 
    • 또한, 반사실적 생성(counterfactual generation)의 평가는 종종 Self-BLEU(Chen et al., 2023g)와 같은 다양성 매트릭스를 사용하며, 코드 생성은 Pass@k(Nijkamp et al., 2022)와 같은 매트릭스를 사용합니다. 
    • 광범위한 데이터 세트가 필요한 시나리오에서는, LLM이 생성한 주석의 품질을 소량의 라벨링된 하위 집합 내의 골드 스탠더드 라벨과 비교하여 평가합니다(Zhao et al., 2021; Agrawal et al., 2022; He et al., 2023).

4.2 Filtering & Selection

  • 다양한 옵션 중에서 고품질의 주석을 선택하는 것은 매우 중요합니다. 
  • 이 섹션에서는 LLM이 생성한 데이터를 필터링하고 선택하는 방법을 세 가지 유형으로 분류합니다: 규칙 기반 필터링, 외부 소스 활용, LLM 기반 선택입니다.
  • Rule-Based Methods.
    • 규칙 기반 방법은 샘플 길이(Li et al., 2023f; Kim et al., 2023a), 키워드 발생(Kim et al., 2023b; Zheng et al., 2023), 특정 패턴(Zhang and Yang, 2023a; Guo et al., 2024a; Ding et al., 2024) 등의 다양한 휴리스틱 가정을 따르며, 저품질 또는 원치 않는 합성 데이터를 필터링합니다. 
    • 보통 실무에서 가장 간편하게 적용가능한 방법이긴함
    • Zheng et al.(2023)과 Kim et al.(2023a)는 생성된 대화에서 일정한 라운드 수를 설정하여 각 합성 대화가 충분히 유익한지 확인합니다. 
    • Ho et al.(2023)와 Kang et al.(2024)는 CoT(Chain of Thought) 추론 샘플에서 잘못된 추론을 걸러내기 위해 진리 값을 기반으로 한 구문 분석을 사용합니다. 
    • Wang et al.(2022b), Lee et al.(2023a), Ding et al.(2024)는 생성된 데이터 포인트 간의 다양성을 장려하기 위해 의미적 유사성 메트릭을 활용하여 중복된 샘플을 제거합니다.
    • 이러한 관련연구를 읽어보면 도움이 될지도
  • External-Source-Based Methods.
    • 외부 소스의 피드백을 활용하여 합성 데이터 세트를 정제하는 연구들도 많이 있습니다(Kim et al., 2023a). 
    • Gulcehre et al.(2023)과 Dong et al.(2023)은 사전 훈련된 보상 모델을 사용해 높은 보상 값을 얻는 샘플만을 포함하여 원본 데이터 세트를 보강합니다. 
    • Lin et al.(2023b)와 Wang et al.(2024d)는 작은 모델을 증류할 때 학생 모델의 피드백을 통해 적절한 데이터를 신중하게 선택합니다. 
    • 또한, Chen et al.(2023g), Zheng et al.(2023)과 같은 연구는 사전 훈련된 분류 모델을 활용해 목표 데이터와 원치 않는 데이터 포인트를 구분합니다.
  • LLMs-Driven Methods
    • LLM의 다재다능함은 LLM 자체를 데이터 선택에 활용하는 방법에 대한 관심을 불러일으켰습니다. 
    • 일부 접근법은 퍼플렉시티 점수(Wang et al., 2024c), 신뢰 수준(Wang et al., 2022b; Huang et al., 2023), 로짓(Pace et al., 2024)과 같은 LLM에서 생성된 신호나 특징을 데이터 선택 기준으로 사용합니다. 
    • 다른 연구에서는 LLM을 직접 프롬프트하여 이 작업을 수행합니다. 
    • 예를 들어, Lu et al.(2023)는 대상 LLM을 사용해 생성된 샘플의 품질을 평가합니다. 
    • Kim et al.(2023a)는 ChatGPT를 활용해 합성된 대화에서 사회적 상식이 적절하게 전달되는지 판단합니다. 
    • 또한, Jeronymo et al.(2023)와 Li et al.(2024c)와 같은 연구는 LLM을 사용해 여러 주석 후보를 순위 매기고, 상위 주석을 이후 단계에서 활용합니다. 
    • Tong et al.(2024b)는 쌍별 피드백 합성에서 기본 LLM에 한 응답이 다른 응답보다 우수한지 판단하는 작업을 맡깁니다.

5 LLM-Generated Annotations Utilization

5.1 Supervised Fine-tuning

  • 감독 학습을 통한 미세 조정은 모델의 특정 능력이나 지식을 효과적으로 향상시킬 수 있습니다. 
  • 이 섹션에서는 생성된 주석을 이용한 감독 학습을 통한 미세 조정에 대해 논의합니다.
  • Self-distillation.
    • Huang et al. (2023)은 LLM(대규모 언어 모델)을 데이터 주석자이자 학습 가능한 모델로 활용하여 자체 주석 데이터를 반복적으로 미세 조정하는 자기 향상 개념을 처음으로 제안했습니다. 
    • Wang et al. (2023e)은 GPT3를 지침 조정 데이터셋에서 조정하여 모델의 제로샷 일반화 능력을 향상시키기도 했습니다. 
    • LLM의 발전을 촉진하기 위해, Lu et al. (2023)은 자체 정제된 합성 응답에서 LLM을 반복적으로 미세 조정했습니다. 
    • Yang et al. (2024b)은 작업 데이터셋과 LLM 사이의 분포 차이를 완화하기 위해, 모델 자체에서 생성된 증류된 데이터셋을 통해 미세 조정을 안내하는 자기 증류 방식을 사용했습니다. 
    • Chen et al. (2024b)와 Cheng et al. (2024)는 LLM이 자기 자신과 대결을 펼치며 능력을 향상시키는 자기 플레이 메커니즘을 도입했습니다.
  • Distill Smaller Models.
    • 효율성 문제로 인해, 많은 연구는 대형 LLM(대규모 언어 모델)이 생성한 데이터를 사용하여 유연하고 비용 효율적인 소형 모델을 훈련하는 것을 목표로 합니다. 
    • 더 나은 지시 따르기 능력을 위해, 중소형 LLM들은 대형 LLM이 생성한 합성 데이터셋을 기반으로 훈련됩니다(Taori et al., 2023; Chiang et al., 2023b; Xu et al., 2023a). 
    • 분류 작업에서는 Meng et al. (2022, 2023) 및 Wang et al. (2023d)이 원본 데이터셋을 증강하고 그 위에서 소형 양방향 주의 모델을 훈련했습니다. 
    • 모델의 추론 능력을 향상시키기 위해, 많은 연구는 LLM에서 수집된 합성 추론 데이터를 사용하여 소형 모델을 조정합니다(Wang et al., 2022a; Shridhar et al., 2023; Liu et al., 2023a; Kang et al., 2024). 
    • 그 외의 작업 특화 능력 증류에는 대화 생성(Xu et al., 2023b), 정보 추출(Josifoski et al., 2023; Jeronymo et al., 2023) 및 코드 생성(Chaudhary, 2023; Roziere et al., 2023)이 포함됩니다. 
    • 또한, LLM은 지식 용량 면에서 확장 법칙을 따르는 것으로 입증되었습니다. 
    • 따라서 의학(Zhang et al., 2023; Xiong et al., 2023), 금융(Zhang and Yang, 2023b), 과학(Luo et al., 2023; Zhao et al., 2024) 등 특정 분야의 지식을 소형 모델로 증류하려는 관심이 커지고 있습니다.

5.2 Alignment Tuning

  • RLHF(Ouyang et al., 2022)와 같은 Alignment tuning 방법은 LLM(대규모 언어 모델)의 출력을 인간의 의도에 맞추어 유용하고, 윤리적이며, 신뢰할 수 있도록 조정하는 것을 목표로 합니다. 
  • LLM이 생성한 합성 데이터는 이러한 정렬 방식에서 보상 모델링과 정책 훈련에 널리 사용됩니다.
  • Reward Modeling
    • LLM(대규모 언어 모델)이 생성한 주석은 더 나은 정렬을 위해 보상 모델을 훈련하거나 개선하는 데 사용할 수 있습니다.
    • Xu et al. (2023c)은 LLM이 제공한 쌍별 피드백을 활용하여 샘플의 난이도를 계산하고 간단한 것에서 어려운 것으로 LLM의 학습을 부드럽게 만드는 데이터 커리큘럼 방법을 제안했습니다. 
    • Kim et al. (2023b)은 정책 모델이 생성한 합성 데이터를 사용하여 보상 모델을 반복적으로 개선하는 '보상 모델 가이드 자기 플레이' 방법을 설계했습니다. 
    • Pace et al. (2024)은 주어진 쿼리에 대한 정책 응답 쌍을 기본 선호 모델에 따라 올바르게 레이블링할 확률을 최대화하는 방법을 제안했습니다. 
    • 로봇 공학에서는 Zeng et al. (2024)이 LLM의 피드백을 사용하여 처음부터 보상 함수를 학습했습니다. 
    • Sun et al. (2024a)은 합성 데이터 쌍을 사용하여 임의의 인간 정의 원칙에 따라 보상 점수를 생성하는 학습 가능한 보상 모델을 훈련했습니다.
  • Policy Training.
    • 최근 Rafailov et al. (2024) 및 Zhao et al. (2023b) 등 여러 직접 정렬 방법이 등장했으며, 일부 연구는 주석 피드백을 직접적으로 정책 훈련에 사용하는 방법을 탐구하고 있습니다. 
    • 일반적인 전략 중 하나는 LLM이 생성한 쌍별 피드백을 활용하여 DPO(Direct Preference Optimization)를 적용하는 것입니다(Yuan et al., 2024; Zhang et al., 2024a; Lee et al., 2024b; Tong et al., 2024b; Lee et al., 2024a; Guo et al., 2024b). 
    • 이 외에도, Gulcehre et al. (2023)과 Dong et al. (2023)은 사전 훈련된 보상 모델을 활용하여 낮은 품질의 합성 데이터를 걸러내고, 데이터셋을 점점 확장하며 LLM을 반복적으로 튜닝합니다. 
    • Wang et al. (2024a)은 합성 데이터를 반복적으로 활용하는 부트스트래핑 셀프-어라인먼트 방법을 제안했습니다. 
    • Liu et al. (2024)은 MoTE(Mixture of insighTful Experts) 아키텍처를 도입하여, 전문가 혼합 기법을 적용해 합성 응답의 각 구성 요소를 강화하여 정렬 효율성을 크게 높였습니다. 
    • Pang et al. (2024a)은 LLM이 생성한 추론 쌍별 피드백을 사용하여 수정된 DPO 손실과 추가적인 음의 로그 가능도 항을 결합해 LLM을 조정했습니다.

5.3 Inference

  • In-context Learning.
    • 인컨텍스트 학습(In-context Learning, ICL)은 세 가지 구성 요소로 이루어져 있습니다: 
      • 작업 설명(또는 프롬프트), 
      • 여러 개의 인컨텍스트 샘플(또는 데모), 
      • 그리고 추론해야 하는 테스트 사례입니다. 
    • 최근 연구들은 LLMs(대형 언어 모델)이 생성한 주석과 데이터를 이러한 모든 구성 요소에서 적용하여 개선하거나 확장하는 방식에 대해 탐구하고 있습니다. 
    • Zhou et al. (2022b)은 처음으로 잘 설계된 파이프라인을 통해 LLMs가 인간 수준의 프롬프트 엔지니어가 되어 정확한 작업 설명을 생성할 수 있음을 보여주었습니다. 
    • 그 후 Yang et al. (2023b); Li et al. (2024e)은 원래의 작업 프롬프트를 세부적으로 확장하고 보강하여 LLMs가 더 쉽게 따를 수 있도록 연구를 진행했습니다. 
    • 데모 증강(Demonstration augmentation)은 (Kim et al., 2022; Li et al., 2023c; Chen et al., 2023d; He et al., 2024) 레이블이 적은 데이터 환경에서 주어진 데모를 풍부하고 다양하게 만드는 데 유용한 기술입니다. 
    • 테스트 샘플에 대한 증강 방법으로는, Deng et al. (2023)은 이를 한 번 또는 Li et al. (2023a); Yang et al. (2024a)은 여러 번 재구성하는 방법을 사용합니다. 
    • 다른 연구들은 원래의 테스트 샘플을 다듬거나 (Xi et al., 2023) 여러 하위 질문으로 분해하는 방법 (Wang et al., 2024b)을 탐구하고 있습니다.
  • Reasoning. 
    • 추론(Reasoning)은 LLMs가 생성한 콘텐츠의 품질과 정확성을 향상하는 데 중요한 역할을 합니다. 
    • 자가 생성 주석을 사용하여 LLMs의 추론을 향상시키는 효율적인 방법 중 하나는, 최종 답변이나 응답을 출력하기 전에 생성된 이유를 직접 제공하는 것입니다 (Kojima et al., 2022). 
    • LLMs의 성능을 다양한 추론 경로를 통해 향상시키기 위해, 다수결(Majority voting, Wang et al., 2022b; Chen et al., 2023f)과 제거(Elimination, Tong et al., 2023; Balepur et al., 2023; Ma and Du, 2023) 방식을 사용하여 여러 후보 답변 중 최종 답변을 결정합니다. 
    • 사후 편집 및 수정(Post-hoc editing and refining)은 텍스트 피드백과 분석을 활용하여 LLMs의 추론 능력을 향상시키기 위한 또 다른 연구 방향입니다 (Madaan et al., 2024; Tong et al., 2024a). 
    • 또한 LLMs가 생성한 주석을 활용하려면 추가적인 도메인 도구가 필요할 때가 있습니다. 
    • 예를 들어, Chen et al. (2023e)은 프로그램-오브-사고(PoT)에서 프로그램 인터프리터를 사용하여 생성된 프로그램을 실행하고 특정 답변으로 변환합니다. 
    • Besta et al. (2024)은 프롬프터를 설계하여 LLM에 보낼 프롬프트를 생성하고, LLM의 생각에서 정보를 추출하는 파서를 구축합니다. 
    • 트리-오브-사고(ToT)에서 Hao et al. (2023); Yao et al. (2024)은 특정 프롬프트를 설계하고 기본 LLM을 재활용하여 추가 상태 평가자를 구축합니다.

6 Societal Impact and Future Work

  • 이 섹션에서는 LLM 주석(annotaion)과 관련된 도전 과제들을 설명하며, 여기에는 사회적 영향, 기술적 문제, 그리고 편향 확산이 포함됩니다.

6.1 Ethics Consideration

  • LLM이 생성한 주석의 중요한 문제 중 하나는 윤리적 고려입니다. 
  • 특히 금융(Yang et al., 2023a), 법률(Cui et al., 2023), 의료(Eloundou et al., 2023)와 같은 중요한 의사결정 작업에서 더욱 그렇습니다. 
  • LLM 주석의 효율성에도 불구하고, 인간의 통찰력이 부족하면 편향되고 불공정한 결과를 초래할 수 있습니다 (Wu et al., 2023; Abid et al., 2021; Cheng et al., 2021; Li et al., 2023g). 
  • 또한, LLM은 인간 주석자의 역할을 불필요하게 만들어 사회적 격차를 심화시킬 가능성이 있습니다 (Dillion et al., 2023). 
  • 미래 연구에서는 기술 발전과 사회적 결과의 조화를 추구해야 하며, 사회적 영향을 고려하고, 윤리적 사용을 보장하며, 공정성을 촉진하고 투명성을 유지해야 합니다.

6.2 Challenges and Future Work

  • Model Collapse.
    • 모델 붕괴(Model Collapse)는 다른 LLM이 생성한 출력물을 학습한 LLM의 성능이 점진적으로 저하되는 현상을 말합니다 (Sun et al., 2023; Gunasekar et al., 2023; Hsieh et al., 2023; Honovich et al., 2022; Chiang et al., 2023a; Geng et al., 2023). 
    • 이는 LLM이 생성한 데이터가 정보 생태계를 차지하고 있기 때문에 피할 수 없는 문제입니다. 
    • 모방 모델은 종종 더 우수한 모델의 사실적 정밀성에 도달하지 못한 채 스타일적 요소만을 복제하는 경향이 있습니다 (Gudibande et al., 2023; Shumailov et al., 2023). 
    • 이러한 차이는 제한된 샘플 크기로 인한 통계적 근사 오차와 제한된 모델 용량으로 인한 기능적 근사 오차에서 발생합니다. 
    • 이 두 가지 오차는 연속적인 학습 주기를 거치면서 증폭되는 경향이 있습니다 (Alemohammad et al., 2023).
    • Potential Solution.
      • 학습 데이터가 다양하고 높은 품질을 유지하며, 상당 부분이 인간이 생성한 콘텐츠로 구성되어야 합니다. 
      • Gerstgrasser et al. (2024)은 실제 데이터와 기계가 생성한 데이터를 함께 축적하여 모델 붕괴를 방지합니다. 
      • 이 방법은 데이터 다양성을 유지하며, 여러 LLM에서의 성능 저하를 방지할 수 있습니다.
  • Hallucinations.
    • LLM에서의 환각은 생성된 주석의 무결성과 신뢰성을 크게 훼손합니다 (Alkaissi and McFarlane, 2023; Azamfirei et al., 2023; Chaudhary et al., 2024). 
    • 사실 정보와 분리된 환각성 출력은 잘못된 정보의 확산을 초래할 수 있습니다 (Jiang et al., 2024; Chen and Shu, 2023). 
    • 환각 문제를 해결하기 위해서는 학습 과정을 개선하고, 자동 및 수동 검증을 통한 주석의 검증 메커니즘을 구현하는 것이 필요합니다 (Liao and Vaughan, 2023; Pan et al., 2023; Bian et al., 2023). 
    • 또한, LLM의 본질적인 불투명성은 환각의 원인을 조사하는 노력을 더욱 어렵게 만듭니다.
    • Potential Solution.
      • Yang et al. (2023d)은 LLM에서의 환각 문제를 역 검증(Reverse Validation) 방법으로 해결하며, 응답에서 쿼리를 구성하여 패시지 수준에서 환각을 감지하고 LLM의 내부 지식과의 일치를 확인합니다. 
      • Bertaglia et al. (2023)은 체인 오브 생각(Chain-of-Thought, CoT) 프롬프트와 설명 생성을 사용하여, CoT 프롬프트가 예측에 대한 설명을 생성하고 논리적이며 검증 가능한 출력을 보장합니다. 
      • Li et al. (2023b)은 CoAnnotating 프레임워크를 제안하며, 인간과 LLM 간의 불확실성에 기반한 작업 할당을 통해 신뢰성을 평가하고 작업을 효과적으로 분배하는 자기 평가 및 엔트로피 메트릭스를 적용합니다.
  • Efficiency of LLMs.
    • LLM의 효율성은 그들의 크기와 복잡성이 증가함에 따라 매우 중요해지고 있으며, 이는 상당한 컴퓨팅 자원을 요구합니다 (Wong et al., 2024). 
    • 효율적인 모델은 추론 지연을 줄이고, 이는 실시간 애플리케이션에 필수적이며, 지속 가능한 AI 관행을 위한 에너지 소비를 낮추고, 클라우드 환경에서 운영 비용을 절감하여 연구자들에게 AI를 더욱 비용 효과적으로 만듭니다. 
    • LLM의 효율성 기술로는 가지치기(pruning), 압축(compression), 증류(distillation) 등이 있으며, 이는 자원이 제한된 환경에서 이러한 모델을 배포하는 데 필수적입니다.
    • Potential Solution.
      • pruning는 LLM의 매개변수 수를 줄이는 효율적인 기술입니다. 
      • 예를 들어, Ma et al. (2023)은 경량화 정보에 따라 중복 뉴런을 선택적으로 제거하면서 LLM의 대부분 기능을 보존합니다. 
      • 전문가 혼합(Mixture of Experts, MoE)은 전문가 하위 모델의 집합을 활용하는 또 다른 유망한 기술로, 주어진 입력에 대해 이 전문가의 하위 집합만 활성화됩니다 (Artetxe et al., 2021). 
      • 연구자들은 또한 LLM 양자화(Quantization)를 채택하여 모델의 매개변수를 표현하는 데 사용되는 숫자의 정밀도를 줄입니다 (Xiao et al., 2023). 
      • 32비트 부동 소수점 숫자를 사용하는 대신, 양자화된 모델은 16비트 부동 소수점, 8비트 정수 또는 그보다 낮은 정밀도를 사용할 수 있습니다. 
      • 이러한 기술은 서로 결합하여 더욱 높은 효율성을 달성할 수 있습니다.

7 Conclusion

  • LLM을 데이터 주석에 활용하는 탐색은 NLP 분야에서 흥미로운 경계를 드러내며, 데이터 부족과 같은 오랜 문제에 대한 새로운 솔루션을 제시하고 주석 품질과 프로세스 효율성을 향상시킵니다. 
  • 이 조사에서는 LLM 활용과 관련된 방법론, 응용 프로그램 및 장애물을 면밀히 검토하며, 주석 생성에서 활용에 이르는 상세한 분류법을 제공합니다. 
  • LLM이 생성한 주석이 기계 학습 모델 학습에 미치는 영향을 평가하며, 편향과 사회적 결과와 같은 기술적 및 윤리적 문제를 다룹니다. 
  • LLM 방법론에 대한 우리의 새로운 분류법, LLM이 생성한 주석을 활용하기 위한 전략, 그리고 도전에 대한 비판적 논의를 강조하면서 이 작업은 이 중요한 분야의 미래 발전을 이끌고자 합니다. 
  • 또한, 다양한 기술에 대한 포괄적인 범주화를 소개하고, 지속적인 연구 노력을 지원하기 위해 방대한 벤치마크 데이터셋을 편집하며, 지속적인 도전 과제에 대한 검토로 결론을 맺습니다.

Reference

댓글