◼ Comment

이는 빅모델로 번역테스크 평가를 시도한 논문이다.
WMT22 대회는 아마 데이터가 이런식 같다.

시스템1: 한글 -> 영어1
시스템2: 한글 -> 영어2
시스템3: 한글 -> 영어3
한글to영어 번역 대회라면, 시스템이 영어로 각각 번역을 한다.
사람이 영어1,2,3을 랭킹한다.
여기서 동점의 개념도 있다.
그리고 제안한 evaluation 으로 영어1,2,3을 랭킹한다.
즉 사람이 매긴 랭킹하고 얼마나 유사한지를 보는 것이다.

이 논문에서는 2가지 방법으로 평가한다.

방법1 - system level

사람랭킹, 빅모델랭킹이 완전일치하는지를 보는 방법

방법2 - segment level

완전히 같지 않더라도, 각각의 번역된 결과의 랭킹의 유사도?를 보는 개념
정확한식은 동점을 고려한 Kendall’s Tau이다.

아무튼 이렇게 했을 때, gpt3.5 이상의 모델에선 모두 효과적이다.

우리가 활용한다면 gpt3.5-turbo 버전을 쓰면 될 거 같다.
system level에선 빅모델 방식이 SoTA을 달성하고
segment level에서는 SoTA는 아니지만 적절한 성능을 달성한다.
또한 사람이 번역한 gold reference을 이용한 방법과 이러한 reference가 없을때 평가하는 2가지 평가방법이 있는데, 둘다 효과적이라는 것이다.

Abstract

저희는 GPT 기반의 측정 지표인 GEMBA를 설명합니다.
GEMBA는 reference translation과 함께 작동하며, reference translation 없이도 작동합니다.
저희의 평가에서는 reference translation의 가용성에 따라 두 가지 모드에서 네 가지 프롬프트 변형을 비교합니다.
ChatGPT와 GPT-4를 포함한 9개 버전의 GPT 모델을 조사합니다.
저희는 번역 품질 평가를 위한 저희의 방법이 GPT 3.5 이상의 모델에서만 작동한다는 것을 보여줍니다.
WMT22의 Metrics shared task 결과와 비교하면, 저희의 방법은 MQM 기반 인간 레이블과 비교할 때 두 모드 모두에서 최신 정확도를 달성합니다.
저희의 결과는 WMT22 Metrics shared task 언어 쌍인 영어-독일어, 영어-러시아어, 중국어-영어 모두에서 시스템 수준에서 유효합니다.
이는 사전 훈련된 생성 대형 언어 모델이 번역 품질 평가에 유용하다는 첫 번째 시각을 제공합니다.
저희는 이 연구에서 설명한 실험에 사용된 모든 코드와 프롬프트 템플릿, 그리고 모든 해당 점수 결과를 공개하여 외부 검증과 재현성을 허용합니다.

1 Introduction

GPT와 같은 대규모 언어 모델(LLM)의 흥미로운 특성 중 하나는 다국어 Q&A에 대한 (암시적) 지원입니다.
모델을 올바른 방식으로 프롬프트하면 언어 간 텍스트를 번역할 수 있습니다.
GPT가 번역 작업에 맞게 미세 조정되지 않았기 때문에 이는 놀라운 일입니다.
Hendy(2023)의 연구에 따르면 GPT를 사용한 번역은 리소스가 많은 언어의 번역에 적용될 때 높은 품질을 달성하지만, 소외된 언어의 번역 품질 측면에서는 여전히 부족한 것으로 나타났습니다.
모델이 번역을 할 수 있다면 좋은 번역과 나쁜 번역을 구분할 수 있을 것이라는 이 발견을 바탕으로 번역 품질 평가 작업에 GPT를 적용했습니다.
이 백서의 나머지 부분에서는 사전 학습된 생성형 대규모 언어 모델(LLM)에 대한 최근의 발전에서 영감을 받아 이러한 모델을 번역 품질 자동 평가에 어떻게 적용할 수 있는지 살펴봅니다.
이 연구의 주요 질문은 다음과 같습니다:

Can LLMs be used for effective quality assessment of translations?

GPT Estimation Metric Based Assessment의 약자인 GEMBA를 제안합니다.
이 메트릭은 각 세그먼트 번역을 개별적으로 평가한 다음 획득한 모든 점수를 평균하여 최종 시스템 수준 점수를 산출합니다.
번역 품질에 대한 제로 샷 평가를 위해 여러 가지 프롬프트 변형을 정의하고 평가하며, 품질 메트릭으로 사람 참조 번역을 사용하거나 품질 추정 작업으로 참조 번역을 사용하지 않는 두 가지 모드로 평가합니다.
Freitag에서 수행한 이전 작업을 기반으로 WMT22용 평가 프레임워크에서 구현된 번역 품질에 대한 인적 평가에 사용되는 DA+SQM 템플릿을 기반으로 주요 프롬프트를 설계했습니다.
우리가 아는 한, 이 연구는 품질 평가를 목적으로 대규모 언어 모델(LLM)의 활용을 탐구하는 데 있어 선구적인 노력을 나타냅니다.
연구 결과가 발표된 후 Lu(2023)는 독립적으로 관련 보고서를 발표하여 LLM의 높은 성능을 입증했습니다.
The main contributions of this paper are:

우리는 최근의 WMT22 metric evaluation data(시스템수준)에서 GPT기반의 번역 퀄리티 평가의 SoTA 성능을 입증한다.
우리는 4개의 프롬프트 템플릿들로 실험하여, 제약이 적은 템플릿이 가장 좋은 성능을 보여준다.
우리는 9개의 다른 GPT 모델들을 평가하였고, 오직 GPT 3.5와 더 큰 모델들만이 번역 퀄리티 평가에 사용가능함을 보여준다.
GPT-4 모델을 사용하는 GEMBA는 세그먼트 수준 점수에서 최고 성능의 지표에 비해 약간 뒤처지는 것으로 나타났습니다.

2 The GEMBA Metric

LLM에 prompting를 표시하여 번역 품질을 평가하려면 다음 매개 변수가 필요합니다:

prompt variant (from a pre-defined set)
source language name, e.g., “Chinese”
target language name, e.g., “English”
source segments src1..N
candidate translations hyp1..N
optionally, reference translations ref1..N

모든 세그먼트에 대해 개별 zero-shot problems로 쿼리하는 GPT 요청을 생성한 다음 결과를 집계합니다.
이 initial proof of concept에서는 few-shot queries 또는 document-level context와 같은 개선 사항을 향후 작업으로 남겨둡니다.

2.1 Prompt variants

modeling two scoring and two classification tasks에 대해 네 가지 프롬프트 유형을 실험해 보았습니다.
For the scoring tasks,

첫 번째는 직접 평가를 기반으로 한 것 (GEMBA-DA)
두 번째는 스칼라 퀄리티 메트릭에 대한 최근 연구 효과를 기반으로 한 다른 방법 (GEMBA-SQM)

번역 퀄리티 점수는 LLM에 대해 자연스러운 테스크가 아닐 수 있어서, 우리는 또한 두 가지 분류 테스크들을 디자인한다.

첫 번째는 사용자가 다양한 서비스나 제품에 대한 리뷰를 요청할 때 자주 사용되는 스타일인 1-5개의 별 순위(GEMBA-stars)를 기반으로 합니다.
두 번째 프롬프트는 LLM에 번역 품질을 5개의 개별 품질 등급(GEMBA-classes) 중 하나로 표시하도록 요청합니다.

이 네 가지 프롬프트 유형 각각에 대해 사람 참조에 액세스할 수 있는지 여부에 따라 해당 쿼리 템플릿의 문구가 달라지는 두 가지 모드를 실험해 보았습니다.
예를 들어, 그림 1의 GEMBA-DA 프롬프트가 있습니다.

위와 같이 구체적인 프롬프트를 사용
이 방식은 번역 품질을 바로 평가하는 GEMBA-DA 방식이다.

토큰 수를 기준으로 볼 때, 이 프롬프트 템플릿은 우리가 실험한 것 중 제약이 가장 적은 템플릿입니다.
전체 프롬프트 템플릿 세트는 부록 A에서 확인할 수 있습니다.
naming convention을 위해, 참조가 없는 quality estimation metrics 에는 접미사 "[noref]"를 붙여 표시합니다.

2.2 Scoring process

expected scores는 GEMBA-DA 및 GEMBA-SQM 프롬프트의 경우 [0, 100] 범위로, 사람 평가와 동일합니다(Graham et al., 2013);

GEMBA-stars의 경우 출력 범위는 [1, 5]이고 GEMBA-classes는 5개의 클래스 레이블 중 하나를 할당합니다.
system-level scores를 얻기 위해 segment-level scores를 평균합니다.
GEMBA-classes 메트릭 변형의 경우, 평균을 내기 전에 레이블을 기준으로 클래스에 숫자 값[0 - 4]을 할당합니다.
GEMBA-classes는 클래스 5개를 정답으로 받고, 여기에 점수 0~4을 붙인다.

우리가 질문하는 GPT 모델에 따라 이 범위를 벗어난 답변이 텍스트로 반환되는 경우가 있습니다.

이러한 유효하지 않은 답변이 관찰되면 무작위성을 추가하고 더 많은 답변을 샘플링하여 출력 범위와 일치하는 첫 번째 답변을 최종 결과로 선택합니다.

2.3 GPT models

표 1에 설명된 대로 GPT 2부터 최신 GPT-4 모델까지 7가지 GPT 모델로 실험합니다.
대부분의 실험에서는 GPT-4 모델을 기본 모델로 사용하며 4.3절에서 다른 모델의 성능을 비교합니다.
특히 이러한 모델에 대한 간략한 설명과 함께 사용합니다:

GPT 2

저희는 Radford(2019)가 제공한 모델을 사용하여 GPT 2가 품질 평가에 유용할 수 있는지 평가했는데, 그 결과 유용하지 않다는 것을 알게 되었습니다;

Ada GPT 3.

2019년 10월까지 최대 2,048개의 토큰과 트레이닝 데이터를 요청할 수 있습니다;

Babbage GPT 3.

More capable than Ada;

Curie GPT 3.

More capable than Babbage;

Davinci-002 GPT 3.5.

2021년 6월까지 최대 4,000개의 토큰과 트레이닝 데이터를 요청할 수 있습니다. FeedME training?을 사용합니다;

ChatGPT

Improved GPT 3.5 model, fine-tuned using Reinforcement Learning from Human Feedback (RLHF);

Davinci-003 GPT 3.5.1.

Uses PPO training;

GPT-3.5-turbo

Davinci-003 model optimized for speed;

GPT-4 there is only limited information about GPT-4, see OpenAI (2023).

GPT 3 모델은 Ouyang (2022년)을 기준으로 합니다.
모델은 예상 파워 또는 출시일을 기준으로 정렬되었습니다.
저희는 OpenAI가 해당 모델의 아키텍처와 학습 데이터에 대한 자세한 정보를 공개하지 않았다는 사실을 알고 있습니다.
가장 중요한 것은 OpenAI가 2021년 9월까지의 데이터로 모델을 학습시켰다고 주장한다는 점입니다.
이는 2022년 12월까지 준비되어 공개될 테스트셋을 사용하기 때문에 중요합니다.

3 Experiments

제안된 GEMBA 지표의 성능을 측정하기 위해 방법론을 따르고, 자동 지표에 대한 annual evaluation를 주최하는 WMT22 Metrics shared task(Freitag 2022b)에서 제공하는 테스트 데이터를 사용하여 human gold labels과 벤치마킹합니다.
Effectively, we compare GEMBA against the best-performing automatic metrics:

COMET (Rei et al., 2020, 2022), BLEURT (Sellam et al., 2020), or the non-public winner MetricX XXL.

3.1 Test set

다음 세 가지 번역 방향에 대해 사람의 판단이 포함된 MQM 2022 테스트 세트를 사용합니다:

English into German, English into Russian, and Chinese into English.

테스트 세트에는 총 54개의 기계 번역 시스템 출력 또는 인간 번역이 포함되어 있습니다.

총 106,000개의 세그먼트가 포함되어 있습니다.

번역 시스템은 주로 WMT22 일반 MT 공유 과제(Kocmi 2022) 참가자의 것입니다.
각 언어 쌍에 대한 소스 세그먼트와 사람 참조 번역에는 뉴스, 소셜, 대화, 이커머스 등 네 가지 텍스트 도메인에서 약 2,000개의 문장이 포함되어 있습니다.
번역 품질 점수를 매기는 표준은 Freitag(2021a)에 설명된 대로 각 번역의 개별 오류를 표시하는 전문가가 주석을 단 휴먼 MQM 등급을 기반으로 합니다.

3.2 Evaluation methods

automatic metrics가 인간과 얼마나 잘 상호 연관되는지 확인하기 위해 system-level, pairwise accuracy(정확도, Kocmi 2021)를 측정합니다.
세그먼트 수준 평가의 경우, Kendall’s Tau(τ , Freitag 2022a)를 사용합니다.
여기서 정확도는 human ranking와 관련하여 메트릭에 의해 올바르게 순위가 매겨진 시스템 쌍의 수를 총 시스템 쌍 비교 수로 나눈 값으로 정의됩니다.
Formally:

아마도? 여러 시스템으로 번역한 결과들이 있다.
사람이 번역한 결과들을 보고 랭킹을 매긴게 있다.
이 랭킹하고 빅모델이 랭킹한것하고 같다면, 그 pair에 대해서 점수를 받는 식 같음

메트릭 평가에 사용되는 Kendall’s Tau의 변형은 수년에 걸쳐 변화해 왔습니다.
처음에 CallisonBurch(2011)는 자동 메트릭에서 동점일 경우 불이익을 주면서 동점인 사람의 순위는 무시하는 Kendall’s Tau를 사용할 것을 제안했습니다.

여기서 "Concordant"는 주어진 메트릭이 시스템의 동일한 순서를 제안하는 모든 인간 세그먼트 비교 집합이고 "Discordant"는 주어진 메트릭이 일치하지 않는 모든 인간 비교 집합입니다.
이 블로그보면 이해하기 쉽다: https://medium.com/@leejukyung/%EC%BC%84%EB%8B%AC%ED%83%80%EC%9A%B0-kendalltau-18fb90ba4e7

이 정의는 나중에 Machácek과 Bojar(2014)에 의해 업데이트되었는데, 이들은 Concordant and Discordant와는 대조적으로 동점을 별도의 그룹으로 취급합니다.

메트릭 공유 작업 Mathur 외(2020)와 Freitag(2021b)는 이를 2011년 버전으로 다시 변경했습니다.
작년에 Freitag(2022a)는 동점을 조정하는 Kendall의 Tau-b로 변경했으며, 저희는 실험에서 최신 정의를 사용했습니다.
전반적으로, 자동 메트릭의 동점은 동일하지 않은 번역에서 거의 발생하지 않습니다.
그러나 방법이 discrete 점수 세트만 출력할 때 문제가 됩니다(이 경우와 같이).
또한 켄달의 타우는 골드 페어별 순위에서 노이즈에 취약합니다(Freitag 2022a).

WMT22 지표 공유 작업 결과 문서에 보고된 모든 점수를 공식 WMT22 스크립트로 재현했습니다.
보고된 점수는 WMT22 메트릭 결과 보고서의 표 11과 일치합니다(Freitag 2022b).

4 Results

참조 번역을 사용할 때와 참조 번역을 사용하지 않을 때(품질 추정 설정에서)의 두 가지 모드에 대한 GEMBA의 성능을 조사했습니다.
표 2는 시스템 수준에서 쌍별 정확도를 보고하며, WMT22 메트릭 공유 작업(Freitag 2022b)의 최고 성능 메트릭과 GEMBA-DA를 비교합니다.
일부 실험에서는 GPT-4를 기본 모델로, GEMBA-DA를 기본 스타일로 사용했습니다.

4.1 Reference-based

표 2의 결과는 레퍼런스 기반 GEMBA-GPT4-DA 지표가 새로운 기준을 제시하고 있음을 보여줍니다.
이 메트릭은 WMT22 메트릭 공유 작업의 다른 모든 참조 기반 메트릭보다 성능이 뛰어납니다.
특히 gold standard으로 사용되는 human labels은 그 자체로 노이즈가 많기 때문에 자동 메트릭에서 100%의 정확도를 얻는 것이 불가능하다는 점을 고려하면, 관찰된 메트릭 성능 수준은 예상치 못한 것입니다.
즉 사람이 매긴 랭킹이랑 GPT4가 매긴 랭킹이랑 89.8% 일치한다

reference가 없어도 87.6%나 일치하는 놀라운 결과...

4.2 Quality estimation

표 2는 레퍼런스가 없는 메트릭인 GEMBA-GPT4-DA[noref]가 품질 추정 모드에서 가장 높은 성능을 달성하고 다른 모든 레퍼런스 없는 메트릭을 크게 앞선다는 것을 보여줍니다.
또한 다른 모든 참조 기반 메트릭보다 성능이 뛰어나며 GEMBA-GPT4-DA보다 약간 더 나쁠 뿐입니다.
다시 말하지만, 관찰된 평가 품질 수준은 예상외로 높아 번역 품질 평가 작업에 LLM을 사용할 수 있는 잠재력을 보여줍니다.
reference가 없어도, 기존의 reference사용한 evaluation metric들보다 성능이 좋다!

4.3 Comparison of GPT models

다양한 GPT 버전의 성능을 자동 메트릭으로 비교했습니다.
표 3은 실험한 모든 모델과 테스트한 모든 프롬프트 변형에 대한 결과를 보여줍니다. GPT-2 또는 Ada 모델에 대한 결과는 표시되지 않았습니다.

두 모델 모두 특정 점수 범위의 답변을 생성하지 못했으며 의미 있는 답변을 생성하지 못하는 것으로 보였기 때문입니다.
일반적으로 우리가 쓰는 chatgpt는 turbo모델이고 가장 최신모델은 GPT4이다.
이 두개 결과를 보면, WMT22 승자보다 대부분 결과가 좋음을 볼 수 있다.
여러가지 프롬프트중에서는 reference 사용에서는 Stars 방법이 제일 좋아보인다.
noreference에서는 SQM 방법이 제일 좋아보인다.

부록 C에 몇 가지 답변이 나와 있습니다.
실험 결과, 이 모델들은 제로 샷 프롬프트를 이해하기에 충분히 강력하지 않다는 결론을 내렸습니다.
이와 대조적으로, Babbage 모델과 Curie 모델은 어떤 유형의 답변을 생성해야 하는지 이해하는 것처럼 보이지만 점수의 품질은 무작위 추측에 가까운 것으로 보입니다.

따라서 Babbage와 Curie는 모두 번역 품질 평가에는 쓸모가 없습니다.

주요 성능 향상은 GPT 3.5 이상 모델, 즉 Davinci-002, ChatGPT, Davinci-003, Turbo 및 GPT-4에서 발생합니다.

이들 각각은 테스트한 모든 프롬프트 변형에 대해 매우 경쟁력 있는 결과를 달성했습니다.

흥미롭게도 DA 스타일의 ChatGPT는 해당 모델 중 품질이 가장 낮은 것으로 나타났습니다.
또한 ChatGPT와 Turbo는 종종 점수와 함께 해당 점수를 부여한 이유에 대한 설명이 함께 응답합니다.
한 가지 가능한 이유는 ChatGPT가 설명을 생성하지 않도록 수정되지 않은 프롬프트 형식 때문일 수 있습니다.

ChatGPT를 써보면, 보통 정답과 함께 이유를 막 생성한다.
이유를 생성하지 않도록 수정되지 않은 프롬프트 (즉 이유를 생성하는 프롬프트) 때문에 성능이 낮아진다고 유추할 수 있다? (걍 뇌피셜이긴 한듯)

당연히 가장 강력한 LLM인 GPT-4가 가장 좋은 성능을 보였습니다.
또한 시간이 지남에 따라 각 세대의 모델이 조금씩 더 좋아지는 것을 볼 수 있습니다.
이는 이전의 다른 모든 GPT 변형에 비해 Davinci-003의 번역 성능이 우수하다는 Hendy(2023)의 연구 결과를 확인시켜 줍니다.

4.4 Segment-level performance

segment-level 성능이라는게, Kendall’s Tau의 성능을 말하는 것 같다.

즉 시스템 전체를 보는게 아니라, 각각의 쌍을 비교하여 살펴보는 것

이전의 모든 결과는 system level에서 보고됩니다.
또한 human gold annotations과 관련하여 segment level에서 GEMBA 메트릭이 얼마나 잘 수행되는지도 조사했습니다.
각 언어 쌍에 대한 Kendall’s Tau 결과는 GPT-4와 Davinci-003에 대한 표 4에 별도로 제시되어 있습니다(모든 메트릭에 대한 결과는 부록 B에 있음).
GPT-4 모델은 최고 성능의 메트릭보다 약간 뒤처지지만 여전히 사람의 판단과 높은 상관관계를 보였습니다.

즉 LLM 방법이 SoTA는 아니다.

반면, quality estimation GEMBA-Dav3-DA [noref]는 다른 최고 성능 메트릭과 달리 세그먼트 수준 성능이 현저히 낮습니다.
세그먼트 수준 상관관계의 낮은 성능은 동점에 불이익을 주는 Kendall’s Tau 때문일 수 있습니다.
다른 자동 메트릭과 달리 이 메트릭은 0-100 사이의 불연속형 값을 반환합니다.
두 번역이 동일한 점수를 받을 확률이 높습니다.
이를 더 자세히 조사하기 위해 모든 시스템과 세 가지 언어 쌍에 대한 모든 답변을 수집한 다음 각 답변 값의 빈도를 계산합니다.
표 5에서 몇 가지 흥미로운 관찰 결과를 확인할 수 있습니다.
DA 참조 기반 프롬프트는 대부분 5의 배수를 생성합니다.

전체 점수의 4분의 3 이상이 80점, 95점 또는 100점입니다.

이는 기본 시스템의 품질이 입증된 만큼 시스템 번역의 실제 품질을 반영할 수 있습니다.
이는 많은 메트릭이 동일한 중요도 클러스터에 속한다는 Freitag(2022b)의 연구 결과이기도 합니다.
"DA[noref]"를 조사해 보면 전체 점수의 60.5%가 "95" 값인 것을 알 수 있습니다.
그럼에도 불구하고 이 메트릭은 여전히 시스템을 서로 구별하고 시스템 수준에서 다른 모든 품질 평가 메트릭을 능가하는 성능을 발휘합니다.
이는 성능이 좋은 시스템이 성능이 나쁜 시스템보다 95점인 세그먼트를 더 많이 획득하여 평균 점수가 더 낮기 때문입니다.
system-level ties이 없다는 점에 유의해야 합니다.

따라서 빈번한 segment-level ties과 discrete scale가 낮은 Kendall’s Tau segment-level performance에 기여할 수 있다고 추측합니다.

4.5 Failure rate

앞에서 설명한 것처럼 LLM은 잘못된 답변으로 답변할 수 있습니다.

예를 들어 점수 대신 대부분 결정을 설명하는 텍스트 답변을 사용합니다.
이러한 상황이 발생하면 모델에 임의성을 추가하여 반복적으로 temperature를 높이고 예상 점수 출력 범위와 일치하는 첫 번째 답변을 가져옵니다.

이는 평가에 비결정론을 추가하므로 이 현상이 얼마나 자주 발생하는지 조사합니다.
표 6은 오답 수를 보여줍니다.

SQM 스타일을 제외한 거의 모든 모델과 프롬프트의 조합에 대해 LLM은 프롬프트를 이해하고 잘못된 답변의 1% 미만으로 유효한 범위에서 답변을 제공합니다.
이는 최종 시스템 수준 점수에 최소한의 영향을 미치므로 메트릭이 대부분 결정론적이라는 결론을 내립니다.
또한 0과 같은 temperature는 항상 동일한 답을 반환한다는 것을 확인했으며 GEMBA-Dav2-DA[noref]를 다시 실행하여 평가했습니다.
즉 생성모델이기 때문에 답변이 꼭 형태로 안나오경우가 있음
이때 temperature을 바꾸면서 반복적으로 시도해서, 제대로 나오는 첫 번째 답변을 사용
temperature을 낮추면 같은 답변만 나오는식이 됨 (근데 키워야 그런거 아닌가?)

답변 처리는 일반적으로 독립형 번호이므로 간단합니다.
경우에 따라 LLM은 숫자 점수를 부여하고 텍스트 설명을 계속합니다.

이러한 경우 첫 번째 숫자만 구문 분석합니다.

모델이 별도로 구문 분석하는 다른 답변을 제공하는 GEMBA-stars 프롬프트에 대해 더 복잡한 접근 방식을 취해야 합니다.
다음은 별 2개 답변의 몇 가지 예입니다.

"2", "two", "**", "★★", "two stars" 또는 "2 stars".
즉 다양하게 답변을 낼 수가 있음
영어의 입력이 아니면, 다른언어로 반환하는 경우도 있음
이런 경우, 답변을 다 살펴봐서 파싱해야하는 거 같음

영어가 아닌 대상 언어의 경우 대답은 대상 언어로 생성될 수 있습니다(예: "一星" 또는 "五").
다른 프롬프트에 대한 출력을 번역하려는 시도는 관찰되지 않았습니다.

5 Conclusion

우리는 GPT 기반 추정 메트릭 기반 평가 방법인 GEMBA에 대한 작업을 발표했습니다.
우리의 지표를 WMT22 Metrics 공유 작업의 다른 자동화된 지표와 비교하여 MQM 2022 테스트 세트에서 세 가지 언어 쌍(영어에서 독일어, 영어에서 러시아어, 중국어에서 영어)에 대한 최신 성능을 보고합니다.
우리는 품질 평가를 위한 GPT 모델의 적용에 대한 연구를 계속할 계획입니다.
추가 연구는 모델 미세 조정뿐만 아니라 퓨샷(현재의 제로 샷 방법론과 반대)으로의 전환에 초점을 맞출 것입니다.
둘 다 GEMBA 정확도를 높일 것을 약속합니다.
또한 MQM 오류 기반 평가 또는 사후 편집 노력을 지원하도록 프롬프트를 수정하면 추가 개선으로 이어질 수 있습니다.
GPT로 강화된 평가 측정항목을 사용하면 훨씬 더 큰 컨텍스트 창을 사용할 수 있기 때문에 문서 수준 평가와 관련하여 진전을 이룰 수 있습니다.
이는 문서 수준 메트릭에 대한 연구가 거의 없기 때문에 도움이 될 수 있습니다(Vernikos et al., 2022).

Limitations

preliminary 결과는 WMT22 Metrics 공유 작업의 일부로 평가된 다른 자동화된 메트릭과 비교할 때 GEMBA 메트릭이 매우 잘 수행됨을 나타내지만 이러한 결과는 단 세 가지 언어 쌍에 대한 사람 레이블을 기반으로 한다는 점에 유의해야 합니다.
다른 언어 쌍, 주로 이러한 언어에 대해 번역 품질이 낮은 Hendy(2023)와 유사한 리소스가 부족한 언어의 경우 메트릭 성능이 저하될 수 있습니다.
또한 GEMBA의 최첨단 성능은 시스템 수준에서만 유지되는 반면 세그먼트 수준 점수는 여전히 개선의 여지가 있습니다.
보고된 결과는 LLM이 장기적으로 번역 품질 평가 작업에 대해 달성할 수 있는 잠재적 성능을 나타냅니다.
그러나 번역 품질을 결정하는 주요 도구로 사용하기 전에는 더 많은 분석이 필요합니다.
이 연구에서 고려해야 할 추가 제한 사항은 평가 데이터가 OpenAI의 교육 데이터 세트에 포함되지 않았는지 확실하게 확인할 수 없다는 것입니다.

그럼에도 불구하고 이용 가능한 증거는 이것이 가능하지 않음을 강력하게 나타냅니다.
OpenAI는 데이터 편집이 2021년 9월까지만 연장된다고 주장하지만 이 연구에 사용된 테스트 세트는 2022년 하반기에 생성되어 2022년 12월에 공개되었습니다.

Davinci-002 모델을 사용한 우리의 초기 긍정적인 결과는 2월 초에 얻었으며, 이는 OpenAI가 평가 데이터를 통합하고 처리하기 위한 짧은 시간 프레임을 제시합니다.
또한 테스트 세트는 일반 텍스트 형식으로 쉽게 액세스할 수 없으므로 교육에 사용하기 전에 사전 처리가 필요합니다.

Reference

https://arxiv.org/pdf/2302.14520.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-181, Large Language Models Are State-of-the-Art Evaluators of Translation Quality, EAMT 2023

◼ Comment

Abstract

1 Introduction

2 The GEMBA Metric

2.1 Prompt variants

2.2 Scoring process

2.3 GPT models

3 Experiments

3.1 Test set

3.2 Evaluation methods

4 Results

4.1 Reference-based

4.2 Quality estimation

4.3 Comparison of GPT models

4.4 Segment-level performance

4.5 Failure rate

5 Conclusion

Limitations

댓글

댓글 쓰기