NL-181, Large Language Models Are State-of-the-Art Evaluators of Translation Quality, EAMT 2023

◼ Comment

  • 이는 빅모델로 번역테스크 평가를 시도한 논문이다.
  • WMT22 대회는 아마 데이터가 이런식 같다.
    • 시스템1: 한글 -> 영어1
    • 시스템2: 한글 -> 영어2
    • 시스템3: 한글 -> 영어3
    • 한글to영어 번역 대회라면, 시스템이 영어로 각각 번역을 한다.
    • 사람이 영어1,2,3을 랭킹한다.
    • 여기서 동점의 개념도 있다.
    • 그리고 제안한 evaluation 으로 영어1,2,3을 랭킹한다.
    • 즉 사람이 매긴 랭킹하고 얼마나 유사한지를 보는 것이다.
  • 이 논문에서는 2가지 방법으로 평가한다.
    • 방법1 - system level
      • 사람랭킹, 빅모델랭킹이 완전일치하는지를 보는 방법
    • 방법2 - segment level
      • 완전히 같지 않더라도, 각각의 번역된 결과의 랭킹의 유사도?를 보는 개념
      • 정확한식은 동점을 고려한 Kendall’s Tau이다.
  • 아무튼 이렇게 했을 때, gpt3.5 이상의 모델에선 모두 효과적이다.
    • 우리가 활용한다면 gpt3.5-turbo 버전을 쓰면 될 거 같다.
    • system level에선 빅모델 방식이 SoTA을 달성하고
    • segment level에서는 SoTA는 아니지만 적절한 성능을 달성한다.
    • 또한 사람이 번역한 gold reference을 이용한 방법과 이러한 reference가 없을때 평가하는 2가지 평가방법이 있는데, 둘다 효과적이라는 것이다.

Abstract

  • 저희는 GPT 기반의 측정 지표인 GEMBA를 설명합니다. 
  • GEMBA는 reference translation과 함께 작동하며,  reference translation 없이도 작동합니다. 
  • 저희의 평가에서는 reference translation의 가용성에 따라 두 가지 모드에서 네 가지 프롬프트 변형을 비교합니다. 
  • ChatGPT와 GPT-4를 포함한 9개 버전의 GPT 모델을 조사합니다. 
  • 저희는 번역 품질 평가를 위한 저희의 방법이 GPT 3.5 이상의 모델에서만 작동한다는 것을 보여줍니다. 
  • WMT22의 Metrics shared task 결과와 비교하면, 저희의 방법은 MQM 기반 인간 레이블과 비교할 때 두 모드 모두에서 최신 정확도를 달성합니다. 
  • 저희의 결과는 WMT22 Metrics shared task 언어 쌍인 영어-독일어, 영어-러시아어, 중국어-영어 모두에서 시스템 수준에서 유효합니다. 
  • 이는 사전 훈련된 생성 대형 언어 모델이 번역 품질 평가에 유용하다는 첫 번째 시각을 제공합니다. 
  • 저희는 이 연구에서 설명한 실험에 사용된 모든 코드와 프롬프트 템플릿, 그리고 모든 해당 점수 결과를 공개하여 외부 검증과 재현성을 허용합니다.

1 Introduction

  • GPT와 같은 대규모 언어 모델(LLM)의 흥미로운 특성 중 하나는 다국어 Q&A에 대한 (암시적) 지원입니다. 
  • 모델을 올바른 방식으로 프롬프트하면 언어 간 텍스트를 번역할 수 있습니다.
  • GPT가 번역 작업에 맞게 미세 조정되지 않았기 때문에 이는 놀라운 일입니다. 
  • Hendy(2023)의 연구에 따르면 GPT를 사용한 번역은 리소스가 많은 언어의 번역에 적용될 때 높은 품질을 달성하지만, 소외된 언어의 번역 품질 측면에서는 여전히 부족한 것으로 나타났습니다. 
  • 모델이 번역을 할 수 있다면 좋은 번역과 나쁜 번역을 구분할 수 있을 것이라는 이 발견을 바탕으로 번역 품질 평가 작업에 GPT를 적용했습니다.
  • 이 백서의 나머지 부분에서는 사전 학습된 생성형 대규모 언어 모델(LLM)에 대한 최근의 발전에서 영감을 받아 이러한 모델을 번역 품질 자동 평가에 어떻게 적용할 수 있는지 살펴봅니다. 
  • 이 연구의 주요 질문은 다음과 같습니다:
    • Can LLMs be used for effective quality assessment of translations? 
  • GPT Estimation Metric Based Assessment의 약자인 GEMBA를 제안합니다. 
  • 이 메트릭은 각 세그먼트 번역을 개별적으로 평가한 다음 획득한 모든 점수를 평균하여 최종 시스템 수준 점수를 산출합니다. 
  • 번역 품질에 대한 제로 샷 평가를 위해 여러 가지 프롬프트 변형을 정의하고 평가하며, 품질 메트릭으로 사람 참조 번역을 사용하거나 품질 추정 작업으로 참조 번역을 사용하지 않는 두 가지 모드로 평가합니다. 
  • Freitag에서 수행한 이전 작업을 기반으로 WMT22용 평가 프레임워크에서 구현된 번역 품질에 대한 인적 평가에 사용되는 DA+SQM 템플릿을 기반으로 주요 프롬프트를 설계했습니다. 
  • 우리가 아는 한, 이 연구는 품질 평가를 목적으로 대규모 언어 모델(LLM)의 활용을 탐구하는 데 있어 선구적인 노력을 나타냅니다. 
  • 연구 결과가 발표된 후 Lu(2023)는 독립적으로 관련 보고서를 발표하여 LLM의 높은 성능을 입증했습니다.
  • The main contributions of this paper are:
    • 우리는 최근의 WMT22 metric evaluation data(시스템수준)에서 GPT기반의 번역 퀄리티 평가의 SoTA 성능을 입증한다.
    • 우리는 4개의 프롬프트 템플릿들로 실험하여, 제약이 적은 템플릿이 가장 좋은 성능을 보여준다.
    • 우리는 9개의 다른 GPT 모델들을 평가하였고, 오직 GPT 3.5와 더 큰 모델들만이 번역 퀄리티 평가에 사용가능함을 보여준다.
    • GPT-4 모델을 사용하는 GEMBA는 세그먼트 수준 점수에서 최고 성능의 지표에 비해 약간 뒤처지는 것으로 나타났습니다.

2 The GEMBA Metric

  • LLM에 prompting를 표시하여 번역 품질을 평가하려면 다음 매개 변수가 필요합니다:
    • prompt variant (from a pre-defined set) 
    • source language name, e.g., “Chinese” 
    • target language name, e.g., “English” 
    • source segments src1..N 
    • candidate translations hyp1..N 
    • optionally, reference translations ref1..N
  • 모든 세그먼트에 대해 개별 zero-shot problems로 쿼리하는 GPT 요청을 생성한 다음 결과를 집계합니다. 
  • 이 initial proof of concept에서는 few-shot queries 또는 document-level context와 같은 개선 사항을 향후 작업으로 남겨둡니다.

2.1 Prompt variants 

  • modeling two scoring and two classification tasks에 대해 네 가지 프롬프트 유형을 실험해 보았습니다.
  • For the scoring tasks, 
    • 첫 번째는 직접 평가를 기반으로 한 것 (GEMBA-DA)
    • 두 번째는 스칼라 퀄리티 메트릭에 대한 최근 연구 효과를 기반으로 한 다른 방법 (GEMBA-SQM)
  • 번역 퀄리티 점수는 LLM에 대해 자연스러운 테스크가 아닐 수 있어서, 우리는 또한 두 가지 분류 테스크들을 디자인한다.
    • 첫 번째는 사용자가 다양한 서비스나 제품에 대한 리뷰를 요청할 때 자주 사용되는 스타일인 1-5개의 별 순위(GEMBA-stars)를 기반으로 합니다.
    • 두 번째 프롬프트는 LLM에 번역 품질을 5개의 개별 품질 등급(GEMBA-classes) 중 하나로 표시하도록 요청합니다.
  • 이 네 가지 프롬프트 유형 각각에 대해 사람 참조에 액세스할 수 있는지 여부에 따라 해당 쿼리 템플릿의 문구가 달라지는 두 가지 모드를 실험해 보았습니다. 
  • 예를 들어, 그림 1의 GEMBA-DA 프롬프트가 있습니다. 
    • 위와 같이 구체적인 프롬프트를 사용
    • 이 방식은 번역 품질을 바로 평가하는 GEMBA-DA 방식이다.
  • 토큰 수를 기준으로 볼 때, 이 프롬프트 템플릿은 우리가 실험한 것 중 제약이 가장 적은 템플릿입니다. 
  • 전체 프롬프트 템플릿 세트는 부록 A에서 확인할 수 있습니다. 
  • naming convention을 위해, 참조가 없는 quality estimation metrics 에는 접미사 "[noref]"를 붙여 표시합니다.

2.2 Scoring process 

  • expected scores는 GEMBA-DA 및 GEMBA-SQM 프롬프트의 경우 [0, 100] 범위로, 사람 평가와 동일합니다(Graham et al., 2013); 
    • GEMBA-stars의 경우 출력 범위는 [1, 5]이고 GEMBA-classes는 5개의 클래스 레이블 중 하나를 할당합니다. 
    • system-level scores를 얻기 위해 segment-level scores를 평균합니다. 
    • GEMBA-classes 메트릭 변형의 경우, 평균을 내기 전에 레이블을 기준으로 클래스에 숫자 값[0 - 4]을 할당합니다. 
    • GEMBA-classes는 클래스 5개를 정답으로 받고, 여기에 점수 0~4을 붙인다.
  • 우리가 질문하는 GPT 모델에 따라 이 범위를 벗어난 답변이 텍스트로 반환되는 경우가 있습니다. 
    • 이러한 유효하지 않은 답변이 관찰되면 무작위성을 추가하고 더 많은 답변을 샘플링하여 출력 범위와 일치하는 첫 번째 답변을 최종 결과로 선택합니다.

2.3 GPT models 

  • 표 1에 설명된 대로 GPT 2부터 최신 GPT-4 모델까지 7가지 GPT 모델로 실험합니다.
  • 대부분의 실험에서는 GPT-4 모델을 기본 모델로 사용하며 4.3절에서 다른 모델의 성능을 비교합니다. 
  • 특히 이러한 모델에 대한 간략한 설명과 함께 사용합니다:
    • GPT 2 
      • 저희는 Radford(2019)가 제공한 모델을 사용하여 GPT 2가 품질 평가에 유용할 수 있는지 평가했는데, 그 결과 유용하지 않다는 것을 알게 되었습니다;
    • Ada GPT 3. 
      • 2019년 10월까지 최대 2,048개의 토큰과 트레이닝 데이터를 요청할 수 있습니다;
    • Babbage GPT 3. 
      • More capable than Ada; 
    • Curie GPT 3. 
      • More capable than Babbage; 
    • Davinci-002 GPT 3.5.
      • 2021년 6월까지 최대 4,000개의 토큰과 트레이닝 데이터를 요청할 수 있습니다. FeedME training?을 사용합니다;
    • ChatGPT 
      • Improved GPT 3.5 model, fine-tuned using Reinforcement Learning from Human Feedback (RLHF); 
    • Davinci-003 GPT 3.5.1. 
      • Uses PPO training; 
    • GPT-3.5-turbo 
      • Davinci-003 model optimized for speed; 
    • GPT-4 there is only limited information about GPT-4, see OpenAI (2023). 
  • GPT 3 모델은 Ouyang (2022년)을 기준으로 합니다. 
  • 모델은 예상 파워 또는 출시일을 기준으로 정렬되었습니다. 
  • 저희는 OpenAI가 해당 모델의 아키텍처와 학습 데이터에 대한 자세한 정보를 공개하지 않았다는 사실을 알고 있습니다. 
  • 가장 중요한 것은 OpenAI가 2021년 9월까지의 데이터로 모델을 학습시켰다고 주장한다는 점입니다. 
  • 이는 2022년 12월까지 준비되어 공개될 테스트셋을 사용하기 때문에 중요합니다.

3 Experiments

  • 제안된 GEMBA 지표의 성능을 측정하기 위해 방법론을 따르고, 자동 지표에 대한 annual evaluation를 주최하는 WMT22 Metrics shared task(Freitag 2022b)에서 제공하는 테스트 데이터를 사용하여 human gold labels과 벤치마킹합니다.
  • Effectively, we compare GEMBA against the best-performing automatic metrics:
    • COMET (Rei et al., 2020, 2022), BLEURT (Sellam et al., 2020), or the non-public winner MetricX XXL.

3.1 Test set

  • 다음 세 가지 번역 방향에 대해 사람의 판단이 포함된 MQM 2022 테스트 세트를 사용합니다:
    • English into German, English into Russian, and Chinese into English. 
  • 테스트 세트에는 총 54개의 기계 번역 시스템 출력 또는 인간 번역이 포함되어 있습니다. 
    • 총 106,000개의 세그먼트가 포함되어 있습니다. 
  • 번역 시스템은 주로 WMT22 일반 MT 공유 과제(Kocmi 2022) 참가자의 것입니다. 
  • 각 언어 쌍에 대한 소스 세그먼트와 사람 참조 번역에는 뉴스, 소셜, 대화, 이커머스 등 네 가지 텍스트 도메인에서 약 2,000개의 문장이 포함되어 있습니다. 
  • 번역 품질 점수를 매기는 표준은 Freitag(2021a)에 설명된 대로 각 번역의 개별 오류를 표시하는 전문가가 주석을 단 휴먼 MQM 등급을 기반으로 합니다.

3.2 Evaluation methods

  • automatic metrics가 인간과 얼마나 잘 상호 연관되는지 확인하기 위해 system-level, pairwise accuracy(정확도, Kocmi 2021)를 측정합니다. 
  • 세그먼트 수준 평가의 경우, Kendall’s Tau(τ , Freitag 2022a)를 사용합니다. 
  • 여기서 정확도는 human ranking와 관련하여 메트릭에 의해 올바르게 순위가 매겨진 시스템 쌍의 수를 총 시스템 쌍 비교 수로 나눈 값으로 정의됩니다.
  • Formally:
    • 아마도? 여러 시스템으로 번역한 결과들이 있다.
    • 사람이 번역한 결과들을 보고 랭킹을 매긴게 있다.
    • 이 랭킹하고 빅모델이 랭킹한것하고 같다면, 그 pair에 대해서 점수를 받는 식 같음
  • 메트릭 평가에 사용되는 Kendall’s Tau의 변형은 수년에 걸쳐 변화해 왔습니다. 
  • 처음에 CallisonBurch(2011)는 자동 메트릭에서 동점일 경우 불이익을 주면서 동점인 사람의 순위는 무시하는 Kendall’s Tau를 사용할 것을 제안했습니다.
    • 여기서 "Concordant"는 주어진 메트릭이 시스템의 동일한 순서를 제안하는 모든 인간 세그먼트 비교 집합이고 "Discordant"는 주어진 메트릭이 일치하지 않는 모든 인간 비교 집합입니다.
    • 이 블로그보면 이해하기 쉽다: https://medium.com/@leejukyung/%EC%BC%84%EB%8B%AC%ED%83%80%EC%9A%B0-kendalltau-18fb90ba4e7
  • 이 정의는 나중에 Machácek과 Bojar(2014)에 의해 업데이트되었는데, 이들은 Concordant and Discordant와는 대조적으로 동점을 별도의 그룹으로 취급합니다. 
    • 메트릭 공유 작업 Mathur 외(2020)와 Freitag(2021b)는 이를 2011년 버전으로 다시 변경했습니다. 
    • 작년에 Freitag(2022a)는 동점을 조정하는 Kendall의 Tau-b로 변경했으며, 저희는 실험에서 최신 정의를 사용했습니다. 
    • 전반적으로, 자동 메트릭의 동점은 동일하지 않은 번역에서 거의 발생하지 않습니다.
    • 그러나 방법이 discrete 점수 세트만 출력할 때 문제가 됩니다(이 경우와 같이).
    • 또한 켄달의 타우는 골드 페어별 순위에서 노이즈에 취약합니다(Freitag 2022a).
  • WMT22 지표 공유 작업 결과 문서에 보고된 모든 점수를 공식 WMT22 스크립트로 재현했습니다.
  • 보고된 점수는 WMT22 메트릭 결과 보고서의 표 11과 일치합니다(Freitag 2022b).

4 Results

  • 참조 번역을 사용할 때와 참조 번역을 사용하지 않을 때(품질 추정 설정에서)의 두 가지 모드에 대한 GEMBA의 성능을 조사했습니다. 
  • 표 2는 시스템 수준에서 쌍별 정확도를 보고하며, WMT22 메트릭 공유 작업(Freitag 2022b)의 최고 성능 메트릭과 GEMBA-DA를 비교합니다. 
  • 일부 실험에서는 GPT-4를 기본 모델로, GEMBA-DA를 기본 스타일로 사용했습니다.

4.1 Reference-based

  • 표 2의 결과는 레퍼런스 기반 GEMBA-GPT4-DA 지표가 새로운 기준을 제시하고 있음을 보여줍니다. 
  • 이 메트릭은 WMT22 메트릭 공유 작업의 다른 모든 참조 기반 메트릭보다 성능이 뛰어납니다. 
  • 특히 gold standard으로 사용되는 human labels은 그 자체로 노이즈가 많기 때문에 자동 메트릭에서 100%의 정확도를 얻는 것이 불가능하다는 점을 고려하면, 관찰된 메트릭 성능 수준은 예상치 못한 것입니다.
  • 즉 사람이 매긴 랭킹이랑 GPT4가 매긴 랭킹이랑 89.8% 일치한다
    • reference가 없어도 87.6%나 일치하는 놀라운 결과...

4.2 Quality estimation

  • 표 2는 레퍼런스가 없는 메트릭인 GEMBA-GPT4-DA[noref]가 품질 추정 모드에서 가장 높은 성능을 달성하고 다른 모든 레퍼런스 없는 메트릭을 크게 앞선다는 것을 보여줍니다. 
  • 또한 다른 모든 참조 기반 메트릭보다 성능이 뛰어나며 GEMBA-GPT4-DA보다 약간 더 나쁠 뿐입니다. 
  • 다시 말하지만, 관찰된 평가 품질 수준은 예상외로 높아 번역 품질 평가 작업에 LLM을 사용할 수 있는 잠재력을 보여줍니다.
  • reference가 없어도, 기존의 reference사용한 evaluation metric들보다 성능이 좋다!

4.3 Comparison of GPT models

  • 다양한 GPT 버전의 성능을 자동 메트릭으로 비교했습니다. 
  • 표 3은 실험한 모든 모델과 테스트한 모든 프롬프트 변형에 대한 결과를 보여줍니다. GPT-2 또는 Ada 모델에 대한 결과는 표시되지 않았습니다. 
    • 두 모델 모두 특정 점수 범위의 답변을 생성하지 못했으며 의미 있는 답변을 생성하지 못하는 것으로 보였기 때문입니다. 
    • 일반적으로 우리가 쓰는 chatgpt는 turbo모델이고 가장 최신모델은 GPT4이다.
    • 이 두개 결과를 보면, WMT22 승자보다 대부분 결과가 좋음을 볼 수 있다.
    • 여러가지 프롬프트중에서는 reference 사용에서는 Stars 방법이 제일 좋아보인다.
    • noreference에서는 SQM 방법이 제일 좋아보인다.
  • 부록 C에 몇 가지 답변이 나와 있습니다. 
  • 실험 결과, 이 모델들은 제로 샷 프롬프트를 이해하기에 충분히 강력하지 않다는 결론을 내렸습니다.
  • 이와 대조적으로, Babbage 모델과 Curie 모델은 어떤 유형의 답변을 생성해야 하는지 이해하는 것처럼 보이지만 점수의 품질은 무작위 추측에 가까운 것으로 보입니다. 
    • 따라서 Babbage와 Curie는 모두 번역 품질 평가에는 쓸모가 없습니다. 
  • 주요 성능 향상은 GPT 3.5 이상 모델, 즉 Davinci-002, ChatGPT, Davinci-003, Turbo 및 GPT-4에서 발생합니다. 
    • 이들 각각은 테스트한 모든 프롬프트 변형에 대해 매우 경쟁력 있는 결과를 달성했습니다. 
  • 흥미롭게도 DA 스타일의 ChatGPT는 해당 모델 중 품질이 가장 낮은 것으로 나타났습니다. 
  • 또한 ChatGPT와 Turbo는 종종 점수와 함께 해당 점수를 부여한 이유에 대한 설명이 함께 응답합니다. 
  • 한 가지 가능한 이유는 ChatGPT가 설명을 생성하지 않도록 수정되지 않은 프롬프트 형식 때문일 수 있습니다. 
    • ChatGPT를 써보면, 보통 정답과 함께 이유를 막 생성한다.
    • 이유를 생성하지 않도록 수정되지 않은 프롬프트 (즉 이유를 생성하는 프롬프트) 때문에 성능이 낮아진다고 유추할 수 있다? (걍 뇌피셜이긴 한듯)
  • 당연히 가장 강력한 LLM인 GPT-4가 가장 좋은 성능을 보였습니다. 
  • 또한 시간이 지남에 따라 각 세대의 모델이 조금씩 더 좋아지는 것을 볼 수 있습니다. 
  • 이는 이전의 다른 모든 GPT 변형에 비해 Davinci-003의 번역 성능이 우수하다는 Hendy(2023)의 연구 결과를 확인시켜 줍니다.

4.4 Segment-level performance

  • segment-level 성능이라는게, Kendall’s Tau의 성능을 말하는 것 같다.
    • 즉 시스템 전체를 보는게 아니라, 각각의 쌍을 비교하여 살펴보는 것
  • 이전의 모든 결과는 system level에서 보고됩니다. 
  • 또한 human gold annotations과 관련하여 segment level에서 GEMBA 메트릭이 얼마나 잘 수행되는지도 조사했습니다. 
  • 각 언어 쌍에 대한 Kendall’s Tau 결과는 GPT-4와 Davinci-003에 대한 표 4에 별도로 제시되어 있습니다(모든 메트릭에 대한 결과는 부록 B에 있음). 
  • GPT-4 모델은 최고 성능의 메트릭보다 약간 뒤처지지만 여전히 사람의 판단과 높은 상관관계를 보였습니다. 
    • 즉 LLM 방법이 SoTA는 아니다.
  • 반면, quality estimation GEMBA-Dav3-DA [noref]는 다른 최고 성능 메트릭과 달리 세그먼트 수준 성능이 현저히 낮습니다. 
  • 세그먼트 수준 상관관계의 낮은 성능은 동점에 불이익을 주는 Kendall’s Tau 때문일 수 있습니다. 
  • 다른 자동 메트릭과 달리 이 메트릭은 0-100 사이의 불연속형 값을 반환합니다. 
  • 두 번역이 동일한 점수를 받을 확률이 높습니다. 
  • 이를 더 자세히 조사하기 위해 모든 시스템과 세 가지 언어 쌍에 대한 모든 답변을 수집한 다음 각 답변 값의 빈도를 계산합니다.
  • 표 5에서 몇 가지 흥미로운 관찰 결과를 확인할 수 있습니다. 
  • DA 참조 기반 프롬프트는 대부분 5의 배수를 생성합니다. 
    • 전체 점수의 4분의 3 이상이 80점, 95점 또는 100점입니다. 
  • 이는 기본 시스템의 품질이 입증된 만큼 시스템 번역의 실제 품질을 반영할 수 있습니다. 
  • 이는 많은 메트릭이 동일한 중요도 클러스터에 속한다는 Freitag(2022b)의 연구 결과이기도 합니다. 
  • "DA[noref]"를 조사해 보면 전체 점수의 60.5%가 "95" 값인 것을 알 수 있습니다. 
  • 그럼에도 불구하고 이 메트릭은 여전히 시스템을 서로 구별하고 시스템 수준에서 다른 모든 품질 평가 메트릭을 능가하는 성능을 발휘합니다. 
  • 이는 성능이 좋은 시스템이 성능이 나쁜 시스템보다 95점인 세그먼트를 더 많이 획득하여 평균 점수가 더 낮기 때문입니다. 
  • system-level ties이 없다는 점에 유의해야 합니다.
    • 따라서 빈번한 segment-level ties과 discrete scale가 낮은 Kendall’s Tau segment-level performance에 기여할 수 있다고 추측합니다.

4.5 Failure rate

  • 앞에서 설명한 것처럼 LLM은 잘못된 답변으로 답변할 수 있습니다. 
    • 예를 들어 점수 대신 대부분 결정을 설명하는 텍스트 답변을 사용합니다.
    • 이러한 상황이 발생하면 모델에 임의성을 추가하여 반복적으로 temperature를 높이고 예상 점수 출력 범위와 일치하는 첫 번째 답변을 가져옵니다.
  • 이는 평가에 비결정론을 추가하므로 이 현상이 얼마나 자주 발생하는지 조사합니다.
  • 표 6은 오답 수를 보여줍니다.
    • SQM 스타일을 제외한 거의 모든 모델과 프롬프트의 조합에 대해 LLM은 프롬프트를 이해하고 잘못된 답변의 1% 미만으로 유효한 범위에서 답변을 제공합니다.
    • 이는 최종 시스템 수준 점수에 최소한의 영향을 미치므로 메트릭이 대부분 결정론적이라는 결론을 내립니다.
    • 또한 0과 같은 temperature는 항상 동일한 답을 반환한다는 것을 확인했으며 GEMBA-Dav2-DA[noref]를 다시 실행하여 평가했습니다.
    • 즉 생성모델이기 때문에 답변이 꼭 형태로 안나오경우가 있음
    • 이때 temperature을 바꾸면서 반복적으로 시도해서, 제대로 나오는 첫 번째 답변을 사용
    • temperature을 낮추면 같은 답변만 나오는식이 됨 (근데 키워야 그런거 아닌가?)
  • 답변 처리는 일반적으로 독립형 번호이므로 간단합니다.
  • 경우에 따라 LLM은 숫자 점수를 부여하고 텍스트 설명을 계속합니다. 
    • 이러한 경우 첫 번째 숫자만 구문 분석합니다.
  • 모델이 별도로 구문 분석하는 다른 답변을 제공하는 GEMBA-stars 프롬프트에 대해 더 복잡한 접근 방식을 취해야 합니다.
  • 다음은 별 2개 답변의 몇 가지 예입니다. 
    • "2", "two", "**", "★★", "two stars" 또는 "2 stars".
    • 즉 다양하게 답변을 낼 수가 있음
    • 영어의 입력이 아니면, 다른언어로 반환하는 경우도 있음
    • 이런 경우, 답변을 다 살펴봐서 파싱해야하는 거 같음
  • 영어가 아닌 대상 언어의 경우 대답은 대상 언어로 생성될 수 있습니다(예: "一星" 또는 "五"). 
  • 다른 프롬프트에 대한 출력을 번역하려는 시도는 관찰되지 않았습니다.

5 Conclusion

  • 우리는 GPT 기반 추정 메트릭 기반 평가 방법인 GEMBA에 대한 작업을 발표했습니다.
  • 우리의 지표를 WMT22 Metrics 공유 작업의 다른 자동화된 지표와 비교하여 MQM 2022 테스트 세트에서 세 가지 언어 쌍(영어에서 독일어, 영어에서 러시아어, 중국어에서 영어)에 대한 최신 성능을 보고합니다.
  • 우리는 품질 평가를 위한 GPT 모델의 적용에 대한 연구를 계속할 계획입니다.
  • 추가 연구는 모델 미세 조정뿐만 아니라 퓨샷(현재의 제로 샷 방법론과 반대)으로의 전환에 초점을 맞출 것입니다.
  • 둘 다 GEMBA 정확도를 높일 것을 약속합니다.
  • 또한 MQM 오류 기반 평가 또는 사후 편집 노력을 지원하도록 프롬프트를 수정하면 추가 개선으로 이어질 수 있습니다.
  • GPT로 강화된 평가 측정항목을 사용하면 훨씬 더 큰 컨텍스트 창을 사용할 수 있기 때문에 문서 수준 평가와 관련하여 진전을 이룰 수 있습니다.
  • 이는 문서 수준 메트릭에 대한 연구가 거의 없기 때문에 도움이 될 수 있습니다(Vernikos et al., 2022).

Limitations

  • preliminary 결과는 WMT22 Metrics 공유 작업의 일부로 평가된 다른 자동화된 메트릭과 비교할 때 GEMBA 메트릭이 매우 잘 수행됨을 나타내지만 이러한 결과는 단 세 가지 언어 쌍에 대한 사람 레이블을 기반으로 한다는 점에 유의해야 합니다.
  • 다른 언어 쌍, 주로 이러한 언어에 대해 번역 품질이 낮은 Hendy(2023)와 유사한 리소스가 부족한 언어의 경우 메트릭 성능이 저하될 수 있습니다.
  • 또한 GEMBA의 최첨단 성능은 시스템 수준에서만 유지되는 반면 세그먼트 수준 점수는 여전히 개선의 여지가 있습니다.
  • 보고된 결과는 LLM이 장기적으로 번역 품질 평가 작업에 대해 달성할 수 있는 잠재적 성능을 나타냅니다.
  • 그러나 번역 품질을 결정하는 주요 도구로 사용하기 전에는 더 많은 분석이 필요합니다.
  • 이 연구에서 고려해야 할 추가 제한 사항은 평가 데이터가 OpenAI의 교육 데이터 세트에 포함되지 않았는지 확실하게 확인할 수 없다는 것입니다.
    • 그럼에도 불구하고 이용 가능한 증거는 이것이 가능하지 않음을 강력하게 나타냅니다.
    • OpenAI는 데이터 편집이 2021년 9월까지만 연장된다고 주장하지만 이 연구에 사용된 테스트 세트는 2022년 하반기에 생성되어 2022년 12월에 공개되었습니다.
  • Davinci-002 모델을 사용한 우리의 초기 긍정적인 결과는 2월 초에 얻었으며, 이는 OpenAI가 평가 데이터를 통합하고 처리하기 위한 짧은 시간 프레임을 제시합니다.
  • 또한 테스트 세트는 일반 텍스트 형식으로 쉽게 액세스할 수 없으므로 교육에 사용하기 전에 사전 처리가 필요합니다.

Reference

댓글