NL-183, The False Promise of Imitating Proprietary LLMs, Preprint 2023
◼ Comment
- 최근에 오픈소스 진영에서 chatgpt와 같은 독점모델을 따라하는 모방모델을 여러 시도들이 있었다.
- 그에 대한 분석을 한 논문이다.
- 예를 들어, Vicuna는 ChatGPT와 Google Bard의 품질에 90% 도달했다고 주장합니다.
- 모방모델을 대충? 써보면 꽤 성능이 좋아보인다.
- 실제로 크라우드워커들이 봤을 때 모방 모델들이 instruction을 잘 따르고, chatgpt와 경쟁력이 있다라고 느낀다고 한다.
- 하지만 좀 더 엄밀히 분석해보면 모방 데이터로 활용된 비슷한 프롬프트, 테스크에서는 잘 작동하나 unseen 프롬프트에서는 잘 작동을 안한다고 한다.
- 말하는 스타일은 chatgpt(독점모델)을 잘 카피하나, 응답에대한 실질적으로 근거, 사실성을 모방하는 것은 아니다라고 볼 수 있다.
- 여기서 독점모델은 chatgpt, 모방모델의 베이스는 LLaMA로 생각하면 될듯
- 지시형 데이터
- 모방 모델 API을 이용해서 추출 가능
- self-instruct와 같은 연구도 참고
- 일반화 모델이 목적이 아닌, 특정 테스크만을 목표로 하는 경우 (로컬모방)
- 이런 경우는 독점 모델을 통해, 특정 테스크에 대한 데이터만 잘 뽑아 와서 모방모델을 학습시킬 것이다.
- 학습된 모방모델의 성능은 독점모델보다도 오히려 좋은 경우가 존재
- 일반화 모델이 목적인 경우 (광범위한 모방)
- 그림1을 보면, 모방 데이터를 많이 추출해서 학습시킨다해도 성능이 향상되지 않는다.
- 오히려 성능이 떨어지는 경우도 보임
- 즉, 모방 데이터를 많이 늘린다해도, 모방모델의 성능은 한계가 있다는 것이다.
- 하지만 같은 모방 데이터에 대해, 모방 모델의 사이즈를 늘리면, 테스크 성능이 향상된다.
- 즉 중요한 것은 모방 모델의 사이즈(기본성능)이라고 볼 수 있다.
- 그러나 우리는 또한 모방 데이터의 양을 늘릴 때 인간 평가가 빠르게 포화되는 것을 발견했습니다 (Figure 1과 3 왼쪽).
- 이는 이 접근 방식의 가능한 한계점을 시사하고 있습니다.
- 즉, 모방데이터로 학습하는 것은 괜찮은 방법이나? 모방 데이터 양을 늘렸을 때 성능이 빠르게 한계점에 도달한다는 것
- 여기서 성능은 크라우드워커 및 GPT4에 의한 정성적 평과 결과를 의미한다.
- 학습시킬 모방 데이터
- 1. NQ-synthetic: 과제별 모방을 위해 우리는 Natural Questions에 맞춤형 모방 데이터셋을 생성했습니다.
- 이는 주로 위키피디아 개체에 대한 사실적 지식을 포함합니다.
- 특히, 우리는 먼저 검증 데이터셋에서 10개의 QA 쌍으로 이루어진 시드(seed) 집합을 정돈했습니다.
- 그런 다음 ChatGPT에게 다섯 개의 무작위 QA 쌍으로 프롬프트(prompt)를 주고 유사하지만 다른 예제를 생성하도록 요청하여 추가적인 6,000개의 예제를 반복적으로 생성했습니다.
- 이 모든 예제는 대화 기록이 없는 단일 턴(single turn)입니다.
- 2. ShareGPT-Mix: ShareGPT, HC3 (Guo et al., 2023), Discord ChatGPT Bots
- 결론적으로는 일반 모델을 만들 때 중요한 것은 base LM(PLM)을 잘 만드는 것이라고 한다.
Abstract
- 약한 언어 모델을 저렴하게 개선하기 위한 새로운 방법은 ChatGPT와 같은 독점 시스템(예: 알파카, 셀프 인스트럭트 등)과 같은 더 강력한 모델의 출력을 기반으로 모델을 미세 조정하는 것입니다.
- 이 접근 방식은 약한 오픈 소스 모델을 사용하여 독점 모델의 기능을 저렴하게 모방하는 것입니다.
- 이 연구에서는 이러한 접근 방식을 비판적으로 분석합니다.
- 먼저 다양한 기본 모델 크기(15억~13억), 데이터 소스, 모방 데이터 양(0.3억~1.5억 토큰)을 사용하여 ChatGPT를 모방하는 일련의 LM을 세밀하게 조정합니다.
- 그런 다음 crowd raters와 표준 NLP 벤치마크를 사용하여 모델을 평가합니다.
- 처음에는 모방 모델의 출력 품질에 놀랐습니다.
- 모방 모델이 지시를 훨씬 더 잘 따르는 것으로 나타났고, 크라우드 워커들은 모방 모델이 ChatGPT와 경쟁력이 있다고 평가했습니다.
- 그러나 보다 타겟화된 자동 평가를 수행했을 때, 모방 데이터에서 크게 지원되지 않는 작업에 대해서는 모방 모델이 기본 LM과 ChatGPT의 격차를 거의 좁히지 못한다는 사실을 발견했습니다.
- 작은 모델을 학습시킬때 사용됐던 다양한 프롬프트와 비슷한 테스크에서는 잘 작동하나 일반화가 잘 안되는거 같음.
- 이러한 성능 차이는 모방 모델이 ChatGPT의 스타일을 모방하는 데는 능숙하지만 사실성을 모방하는 데는 능숙하지 않기 때문에 인간 평가자를 지나칠 수 있음을 보여줍니다.
- 결론적으로 모델 모방은 false promise이며, 현재 방법으로는 감당하기 힘든 양의 모방 데이터를 사용하거나 더 뛰어난 성능의 기본 LM을 사용해야만 좁힐 수 있는 open LM과 closed LM 사이에는 상당한 성능 격차가 존재한다는 결론을 내립니다.
- 결국, 오픈소스 모델을 개선하기 위한 가장 효과적인 조치는 proprietary systems(독점 시스템)을 모방하는 지름길을 택하는 것이 아니라 더 나은 base LM을 개발하는 어려운 과제를 해결하는 것이라고 주장합니다.
- 오픈 LM을 만드는 것은 ChatGPT를 모방할게 아니라, base LM 자체를 새롭게 만드는 것이 낫다?
1 Introduction
- 최근 ChatGPT, Bard, Claude와 같은 강력한 언어 모델(LM)이 출시되면서 최고의 AI 시스템이 주로 대기업에서 유료 API로 제공되는 미래를 예고할 수 있습니다.
- 동시에 오픈 소스 LM의 정확도는 점점 더 높아지고 있으며, LLaMA 및 FLAN-T5와 같은 모델은 성능 수준은 낮지만 상용 모델과 동일한 기본 기능을 다수 제공합니다.
- 가장 강력한 LM을 비공개 소스로 유지할 것인가, 아니면 누구나 사용, 수정, 확장할 수 있도록 자유롭게 배포할 것인가라는 중요한 질문이 제기되고 있으며, 그 해답에 따라 미래에 큰 영향을 미칠 것입니다.
- 두 가지 가능성 모두 중요한 장단점을 가지고 있으며 정책, 기업 전략, 과학적 탐구의 미래에 영향을 미칩니다.
- 이 연구에서는 이 질문에 대한 한 가지 가능한 해결책인 모델 모방(model imitation)에 대해 연구합니다.
- 모델 모방의 전제는 API를 통해 독점(proprietary) LM을 사용할 수 있게 되면, API 출력의 데이터 세트를 수집하여 오픈 소스 LM을 미세 조정하는 데 사용할 수 있다는 것입니다.
- 이론적으로 이러한 모방 과정은 모든 독점 모델의 기능을 쉽게 추출할 수 있는 방법을 제공할 수 있으며, 이는 오픈 소스 LM이 항상 상용 모델과 경쟁할 수 있다는 것을 의미합니다.
- 현재까지 Self-Instruct, 알파카 등 OpenAI의 최고 시스템을 모방하려는 최근 연구들이 진행되었으며, 초기 결과에 따르면 이러한 모델들이 독점 모델과 거의 동등한 수준에 도달한 것으로 나타났습니다.
- 그 결과, 광범위한 기술 커뮤니티의 많은 구성원들 사이에서 폐쇄형 소스 모델은 곧 더 이상 이점이 없을 것이라는 정서가 확산되고 있습니다.
- 저희 연구의 목표는 ChatGPT의 모방 모델을 훈련하고 평가하여 모델 모방의 효과를 비판적으로 분석하는 것입니다.
- 먼저 특정 작업에 대해 ChatGPT를 모방하거나 모든 행동에 대해 광범위하게 모방하는 데 초점을 맞춘 데이터 세트를 수집합니다.
- 그런 다음 다양한 모델 크기(15억~13억), 기본 모델(GPT-2 및 LLaMA), 데이터 양(0.3억~1.5억 토큰)을 사용하여 이러한 데이터 세트에 대한 LM을 미세 조정합니다.
- 인간 및 GPT-4 평가(ChatGPT와의 블라인드 쌍별 비교)와 표준 NLP 벤치마크(MMLU, NQ, HumanEval)에서의 정확도를 사용하여 평가합니다.
- 처음에는 모방 모델이 기본 모델에 비해 얼마나 개선되었는지에 놀랐습니다.
- 모방 모델이 지시를 훨씬 더 잘 따르고 ChatGPT와 유사한 결과를 보여줬기 때문입니다.
- 이는 사람과 GPT-4를 대상으로 한 평가에서도 확인되었는데, 가장 우수한 모방 모델의 결과물이 ChatGPT와 경쟁력이 있는 것으로 평가되었습니다(예: 그림 1, 왼쪽).
- 크라우드 워커들은 처음에는 모방 모델의 품질에 대해 높은 평가를 내렸는데, 약 70%의 결과물이 ChatGPT와 동등하거나 더 나은 것으로 평가되었습니다(왼쪽). 그러나 더 많은 모방 데이터로 훈련할수록 모델은 격차를 좁히지 못하고 심지어 자연스러운 질문에 따른 사실적 지식(가운데)과 같은 다른 축을 따라 퇴보하기 시작했습니다. 현재 오픈소스 LM의 가장 큰 한계는 기본 capabilities이 약하다는 것입니다. 결국, 오픈소스 커뮤니티가 모델을 개선하는 가장 좋은 방법은 점점 더 많은 모방 데이터를 미세 조정하는 것이 아니라 확장, 더 나은 사전 학습 데이터 등을 통해 이러한 기능을 강화하는 것입니다(오른쪽).
- 그러나 보다 타겟화된 자동 평가를 수행했을 때, 모방 모델이 LLaMA와 ChatGPT 사이의 큰 격차를 거의 좁히지 못한다는 사실을 발견했습니다.
- 특히, 모방 훈련 데이터에서 많이 지원되는 평가 과제에서 모방 모델이 개선되는 것을 확인할 수 있었습니다.
- 모방모델에 학습데이터에 활용해서 봤던 테스크에 대해서는 충분히 잘한다. 오히려 기존 LLM보다 더 잘한다!?
- 반면에 모방 모델은 지원이 거의 없는 평가 데이터 세트에서는 개선되지 않거나 정확도가 떨어지기도 합니다.
- 예를 들어, 광범위한 사용자 입력에서 나온 10만 개의 ChatGPT 출력에 대한 학습은 자연어 질문 정확도에 아무런 이점을 제공하지 않지만(예: 그림 1, 가운데), 자연어 질문과 유사한 쿼리에 대한 ChatGPT 응답만을 학습하면 작업 정확도가 크게 향상됩니다.
- 따라서 순수한 모방을 사용하여 ChatGPT를 광범위하게 매칭하려면 (1) 방대한 모방 데이터 세트를 수집하기 위한 공동의 노력과 (2) 현재 사용 가능한 것보다 훨씬 더 다양하고 높은 품질의 모방 데이터가 필요하다는 결론을 내릴 수 있습니다.
- 이러한 결과는 군중 작업자 평가에 대한 LM 성능과 NLP 벤치마크 사이에 불일치가 있음을 강조합니다.
- 즉, 모방모델을 학습하는데 사용된 데이터와 유관한 테스크는 잘하지만, unseen task, insturction에 대해서는 잘 못한다는 것!
- 모방 모델은 자신감 있고 잘 짜여진 답변을 산출하는 ChatGPT의 스타일을 능숙하게 모방하기 때문에 크라우드 워커로부터 긍정적인 평가를 받습니다.
- 그러나 모방 모델의 사실성은 약하며, 도메인 전문 지식이나 상당한 시간 투자가 없는 크라우드 워커는 이러한 오류를 놓칠 수 있습니다.
- 결론적으로, 모델 모방은 공짜 점심이 아니라는 것이 저희의 핵심입니다:
- 오늘날의 오픈 소스 LM과 폐쇄 소스 LM 사이에는 모방 데이터에 대한 값싼 미세 조정으로는 좁힐 수 없는 기능 격차가 존재합니다.
- 실제로, 기본 LM 크기를 늘리는 등 이러한 기능 격차를 줄이는 것이 추가적인 모방 데이터를 미세 조정하는 것보다 훨씬 더 모델을 개선하는 것으로 나타났습니다(예: 그림 1, 오른쪽).
- 즉 중요한건 안좋은 PLM에 LLM추출 모방 데이터를 학습시키는 것이 아니라, 괜찮은 base PLM에 모방 데이터를 미세조정하는 것이다.
- 이는 오픈 소스 LM을 개선하기 위한 더 높은 레버리지 조치는 독점 시스템을 모방하는 지름길을 택하기보다는 더 나은 기본 모델을 개발하는 어려운 과제(예: 모델 확장, 사전 학습 데이터 품질 개선, 사전 학습 개선 등)를 해결하는 것임을 의미합니다.
- 그럼에도 불구하고, 충분히 강력한 기본 LM이 있다면 모델 모방은 고품질의 미세 조정 데이터에 주석을 달아야 할 필요성을 없애는 데 유용하다고 생각합니다.
- 모방모델이 완벽하지 않지만 충분히 유용할 수 있다.
2 What is Model Imitation?
- ChatGPT와 같은 독점 LM은 2가지 주요 측면으로 구성된다: proprietary base LMs and proprietary fine-tuning data.
- 이러한 모델이 배포되면 이러한 구성 요소를 숨기는 블랙박스 API 뒤에 배치됩니다.
- 즉, 사용자는 임의의 입력으로 API를 쿼리할 수 있지만 모델의 학습 데이터, 다음 토큰 확률, 아키텍처는 볼 수 없습니다.
- 모델 모방에서 목표는 API를 사용하여 데이터를 수집하여 유사한 성능을 달성하는 LM을 훈련하는 것, 즉 모방 훈련 세트를 사용하여 목표 LM을 추출하는 것입니다.
- 모방을 수행하는 잠재적인 이유는 양성(합법?)에서 불법에 이르기까지 다양합니다:
- 학계에서는 강력한 모방 LM을 사용해 새로운 연구 프로젝트를 추진할 수 있습니다.
- 기업은 모방 LM을 사용하여 독점 시스템과 경쟁하는 서비스를 출시할 수 있습니다.
- 악의적인 사용자는 모방 모델을 사용하여 악의적인 사용 사례의 진행을 가속화할 수 있습니다.
- 로컬 모방 vs 광범위한 모방
- 모델 모방을 수행할 때는 로컬 "작업별" 모방을 수행하거나 더 넓은 범위의 글로벌 "광범위한" 모방을 수행합니다.
- 전자는 특정 작업이나 도메인(예: 트윗의 감성 분석 또는 Wikipedia 엔티티에 대한 질문 답변)에 대해서만 대상 모델을 모방합니다.
- 후자는 행동, 도메인 및 작업의 전체 스펙트럼에 걸쳐 대상 모델을 광범위하게 모방하는 보다 야심찬 목표에 중점을 둡니다.
- 광범위한 모방은 (1) 매우 다양한 모방 데이터 세트를 수집해야 하고, (2) 모방 모델이 이 광범위한 데이터 분포를 포착하여 무수히 많은 예시에서 목표 모델과 유사하게 일반화해야 하기 때문에 어려운 작업입니다.
- Recent Work on Model Imitation
- 최근 특정 작업에 대한 독점 모델을 국지적으로 모방하거나 Alpaca, Vicuna, Koala, GPT4ALL 등의 모델을 광범위하게 모방하려는 시도가 급증하고 있습니다(Wang et al., 2022a; Peng et al., 2023).
- 이러한 연구들 중 다수는 모방 모델이 목표 모델과 거의 동등한 수준에 도달했다고 결론을 내립니다.
- 예를 들어, Vicuna는 ChatGPT와 Google Bard의 품질에 90% 도달했다고 주장합니다.
- 이러한 주장은 이후 더 광범위한 기술 커뮤니티로 전파되어 많은 사람들이 오픈 소스 LM이 폐쇄 소스 LM과의 격차를 빠르게 좁히고 있으며, 최고의 AI 기업은 곧 경쟁 우위를 갖지 못할 것이라고 믿게 되었습니다.
- Our goal.
- 이 백서의 목표는 이러한 추론을 비판적으로 평가하는 것입니다.
- 특히 다양한 의사 결정(예: 데이터 수집 전략, 데이터 양, 기본 LM)을 실험하고 엄격한 자동 및 인간 평가를 수행하면서 ChatGPT를 모방하도록 모델을 훈련합니다.
- 사람들이 봤을 때, Vicuna는 ChatGPT, BARD의 90% 성능을 낸다고 하지만, 이 논문에 의하면 아니라는 것..
- 빡세게 다양하게 평가해본듯
- 기본적으로 모방모델은 모방데이터에 대해서만 잘 작동하는 편인듯?
- 따라서 무수히 많은 모방 데이터를 만들어야하기 때문에 광범위하게 모방하는 것은 생각보다 힘든 작업인거 같음
3 Building Imitation Datasets
- 우리는 과제별(task-specific)과 넓은 범위(broad-coverage) 모방을 모두 고려합니다.
- 어떤 형태의 모델 모방이든, 목표 모델에 질의할 입력 집합을 정돈해야 합니다.
- 실제로는 미리 생각한 입력 예시 집합(예: 위키피디아 문장, 코카콜라에 관한 트윗 등)이 있을 수 있으며, 이러한 입력 예시 집합이 충분히 크다면 이를 사용하여 대상 모델에 질의하고 모방 데이터셋을 구축할 수 있습니다.
- 큰 규모의 다양한 입력 집합을 만드는 것이 현실적으로 불가능하거나 공수가 많이 든다면, 초기 작은 시드(seed) 입력 집합과 동일한 분포에서 예제를 반복적으로 생성하도록 언어 모델에 프롬프트(prompt)를 주어 합성 예제를 생성하는 방법을 사용할 수도 있습니다.
- Task-specific imitation
- 과제별 모방을 위해 우리는 Natural Questions에 맞춤형 모방 데이터셋을 생성했습니다.
- 이는 주로 위키피디아 개체에 대한 사실적 지식을 포함합니다.
- 특히, 우리는 먼저 검증 데이터셋에서 10개의 QA 쌍으로 이루어진 시드(seed) 집합을 정돈했습니다.
- 그런 다음 ChatGPT에게 다섯 개의 무작위 QA 쌍으로 프롬프트(prompt)를 주고 유사하지만 다른 예제를 생성하도록 요청하여 추가적인 6,000개의 예제를 반복적으로 생성했습니다.
- 이 모든 예제는 대화 기록이 없는 단일 턴(single turn)입니다.
- 우리는 이 데이터셋을 NQ-synthetic이라고 하며, 추가적인 세부사항은 부록 A에서 제공하고 있습니다.
- Broad-coverage imitation
- 보다 포괄적인 목표로서의 넓은 범위(broad-coverage) 모방 데이터에 대해서는, ChatGPT와 같은 모델들이 널리 사용되어서 그들의 입력과 출력이 이미 웹상에 널리 게시되어있는 사실을 활용합니다.
- 따라서, 우리는 회사의 API와 상호 작용하지 않고도 대규모이고 다양하며 일반적으로 고품질의 예제 데이터셋을 무료로 수집할 수 있습니다.
- In particular, we collect examples from three sources:
- ShareGPT:
- 우리는 약 90,000개의 대화를 ShareGPT 웹사이트 사용자들이 공유한 자료를 사용합니다.
- 데이터의 품질을 유지하기 위해, 중복되는 쿼리를 제거하고 언어 감지기를 사용하여 영어가 아닌 대화를 삭제했습니다.
- 이로써 약 50,000개의 예제가 남게 되었으며, 각 예제는 여러 턴의 대화로 이루어져 있습니다.
- HC3 (Guo et al., 2023):
- we use the ChatGPT responses from the English Human-ChatGPT Comparison Corpus.
- This contains ∼27K ChatGPT responses for ∼24K questions.
- Discord ChatGPT Bots:
- we use 10k input-output examples collected from the r/ChatGPT and Turing AI Discord servers, two public channels that allow users to interact with ChatGPT bots.
- 우리는 이 데이터셋을 ShareGPT-Mix라고 지칭하며, 부록 A에서 질적인 예제를 보여줍니다.
- 우리는 ShareGPT-Mix가 일반적으로 높은 품질을 가지고 있음을 발견했습니다.
- 첫째로, 지시사항의 다양성이 높습니다.
- 데이터셋의 각 사용자 쿼리에 대해, 가장 유사한 다른 사용자 쿼리와의 평균 BLEU 점수 유사도는 단지 8%로 나타납니다.
- SuperNaturalInstructions과 같은 다른 데이터셋의 유사성인 61% BLEU에 비해 상당히 낮습니다, 이는 비슷한 크기의 예제 집합에 대해 측정한 것입니다.
- 또한 우리는 다양한 예제들을 수동으로 검토하고 그들의 의미적인 범주를 기록했습니다 (부록 A의 테이블 5 참조).
- 이 데이터셋은 다양한 범주를 포함하고 있으며, 다국어 대화와 코딩 작업과 같은 여러 주제들이 포함되어 있습니다.
4 Main Results
- We train imitation LMs using our ShareGPT-Mix and NQ-synthetic datasets, and we conduct both human and automatic evaluations.
- We focus our initial results on the ShareGPT-Mix models.
4.1 Training and Evaluation Setup
- 저희는 모델 imitation 데이터의 양을 늘리고 기반이 되는 디코더 전용 모델의 능력을 변화시킴으로써 모델 모방의 향상도를 연구합니다.
- 우리는 1.5B부터 13B 파라미터 크기의 디코더 전용 모델들을 고려합니다:
- GPT-2 1.5B (Radford et al., 2019), LLaMA 7B (Touvron et al., 2023), 그리고 LLaMA 13B.2 모델들입니다.
- 또한 데이터 규모에 따른 효과를 연구하기 위해 다양한 크기의 데이터 하위 집합을 이용하여 미세 조정(fine-tuning)을 수행합니다.
- 훈련 중에는 대화를 2048 토큰 블록으로 나누고, 각 사용자 쿼리와 모델 출력의 시작을 표시하는 특수 토큰을 도입합니다.
- 우리는 오직 모델 출력에 대한 표준 LM 손실만을 이용하여 미세 조정을 진행합니다.
- Chung et al. (2022)와 Chowdhery et al. (2022)를 따라, 가중치의 크기에 따라 그라디언트를 다시 조정하여 AdamW 옵티마이저를 이용해 한 에포크 동안 훈련을 합니다.
- 학습률은 2e-3를 사용하며, 0부터 1000 단계까지 선형 웜업을 수행한 후 훈련을 진행하며 배치 크기는 32로 설정합니다.
- 모든 모델은 Google Cloud의 TPU 또는 단일 Nvidia DGX 서버에 있는 8개의 A100 GPU로 구성된 조합된 데이터 병렬 및 텐서 병렬 처리 방법을 사용하여 JAX를 통해 훈련됩니다.
- 자동 평가에서는 5-shot MMLU, 3-shot Natural Questions, 그리고 0-shot HumanEval 데이터셋에서의 성능을 측정합니다.
- 각 데이터셋에 대한 원래의 스코어링 메트릭스를 보고합니다 (예: NQ의 정확도).
- 즉 프롬프트줘서 NLU 테스크들에 대한 성능 평가하는듯
- 인간 평가에서는 Mechanical Turk를 통해 눈가림이 되는 쌍방향 출력 비교를 실시합니다.
- 우리의 사용자 인터페이스에서는 각 평가자에게 과제 지시문과 ChatGPT와 우리의 모방 모델 중 하나로 추정되는 두 개의 알 수 없는 모델 출력을 제시합니다 (Appendix B의 Figure 7 참조).
- 평가자들은 어떤 출력이 더 우수한지 또는 두 출력이 품질면에서 동일한지 선택합니다.
- 우리는 약 70명의 무작위 군중 작업자들을 이용하여 255개의 예비 텍스트로 평가를 수행합니다.
- 데이터셋 전체에서의 평균적인 선호도와 평균 주위의 한 표준 편차를 보고합니다.
- 이는 모방모델과 chatgpt사이의 사람의 win-lose 비율을 살펴보는듯?
- 또한 GPT-4를 사용하여 평가를 수행하고 부록 C에서 사용된 프롬프트에 대한 추가 세부 정보를 제공합니다.
- LLM을 이용한 평가도 해봄
- 모든 코드, 사전 훈련된 모델 및 익명화된 인간 평가를 공개합니다.
4.2 Qualitative Analysis and Crowdworker Evaluation Show Promise
- 모방 모델들은 crowd workers에게 높은 평가를 받습니다.
- 우리는 처음에 ShareGPT-mix 모델들의 품질에 놀랐습니다.
- 기본 GPT-2 또는 LLaMA 모델들은 종종 지시에 따르지 못하는 반면, 모방 모델들은 작업에 집중한 출력을 생성합니다.
- 이러한 초기의 약속은 군중 작업자들과 GPT-4가 종종 모방 모델들의 출력을 ChatGPT보다 우수하거나 동등하다고 평가함으로써 더 지지되었습니다.
- 특히 모델 크기를 늘릴 때 (Figure 1과 3 오른쪽)에 이런 경향이 더 강조됩니다.
- 그러나 우리는 또한 모방 데이터의 양을 늘릴 때 인간 평가가 빠르게 포화되는 것을 발견했습니다 (Figure 1과 3 왼쪽).
- 이는 이 접근 방식의 가능한 한계점을 시사하고 있습니다.
- 즉, 모방데이터로 학습하는 것은 괜찮은 방법이나? 모방 데이터 양을 늘렸을 때 성능이 빠르게 한계점에 도달한다는 것
- 여기서 성능은 크라우드워커 및 GPT4에 의한 정성적 평과 결과를 의미한다.
4.3 Targeted Automatic Evaluations Expose Failure Modes
- Broad-coverage imitation models fail to close the gap across most tasks.
- 다음으로, 우리는 특정 모델 능력이 모방 이후에 개선되었는지를 구분하기 위해 targeted automatic evaluations를 실행했습니다.
- 우리는 측정한 모든 벤치마크에서 ShareGPT-mix 모방 모델들이 기본 모델과 비교하여 정확도가 개선되지 않거나 (심지어 하락하는 경우도 있음) 하지 않는다는 것을 발견했습니다.
- 추가적인 모방 데이터를 추가하더라도 (Figure 4, 상단) 마찬가지입니다.
- 이는 우리의 광범위한 커버리지의 모방 데이터에서 ChatGPT를 모방하더라도 모델이 대부분의 영역에서 개선되지 않는다는 것을 보여줍니다.
- 예를 들어 사실적인 지식, 코딩, 문제 해결 능력 등이 해당됩니다.
- 우리는 이것이 ChatGPT가 LLaMA와 비교하여 웹으로부터 더 많은 지식과 능력을 습득했기 때문에 발생하는 현상이라고 주장합니다.
- 따라서 사전 훈련 데이터보다 훨씬 적은 양의 모방 데이터 (예: 사전 훈련 데이터의 1000배 적은 데이터)가 이 간극을 메우는 데 충분하다고 기대하는 것은 불합리합니다.
- 대신, 우리는 LLaMA-13B와 같은 더 약한 기본 LM을 사용하여 ChatGPT와 광범위하게 대응하기 위해서는 사전 훈련 규모에 훨씬 가까운 규모의 광범위하고 다양한 모방 데이터를 수집하는 집중적인 노력이 필요하다고 주장합니다.
- 현재 이러한 노력이 가치가 있고 실현 가능한지에 대해서는 불분명합니다.
- 모방모델은(llama-instruction-tuning) 특정 테스크에 대한 성능은 기본모델(llama)보다 성능이 떨어지는 경우가 있다.
- 적절하게 모방 데이터를 늘리고 커버리지를 확대해도 모방모델의 성능은 부족하다는 것을 보여준다는 것 (그림4에서 위쪽행보면, 모방모델이 llama보다 떨어진다)
- 즉 4.2에서는 정성적으로는 그럴싸해보이나, 막상 task-specific 성능은 떨어진다?
- instruction 데이터로 모방모델을 학습시켰을 때 왜 성능이 좋아지지 않을까?
- chatgpt는 pretraining 모델(GPT3)가 많은 데이터+큰모델을 기반으로 하기 때문에 chatgpt 성능이 좋아지는데
- llama는 PLM 성능이 부족하기 때문에 발생하는 문제일 수 있다는 것!
- insturction 데이터가 사전학습 데이터보다 훨씬 적기 때문일 수 도 있음 (1000배 작음)
- 따라서 모방 데이터를 사전학습(pretraining)할 때와 비슷한 대규모 데이터를 모아야하지 않을까? 라고 제시한다.
- Training local imitation models is far more successful.
- 한편, 우리가 NQ-synthetic 데이터를 사용하여 ChatGPT를 지역적으로 모방하는 모델은 훨씬 더 성공적입니다.
- 특히, 모방 모델의 성능이 LLaMA 기본 모델과 비교하여 크게 향상되며 (Table 1 참조), 빠르게 ChatGPT의 정확도에 근접해갑니다.
- 이는 ChatGPT의 능력을 넓게 일치시키는 것보다 특정 행동을 추출하는 것이 훨씬 더 실현 가능하다는 것을 보여줍니다.
- A empirical trade-off exists between different evaluation datasets.
- 또 다른 흥미로운 현상은 ShareGPT-Mix 데이터를 더 많이 사용하여 훈련할 때, 기본 모델과 비교하여 일부 평가에서 성능이 저하되는 것입니다 (Figure 4에서 검은 선과 파란 선을 비교).
- 우리는 이러한 performance regressions가 conversational-style fine-tuning data와 downstream benchmarks 사이의 분포 shift와 tension으로부터 발생한다고 믿습니다.
- 이러한 performance regressions를 정규화를 통해 완화하거나 미세 조정 도중 사전 훈련 데이터를 혼합함으로써 개선할 수 있는지는 여전히 미해결 문제입니다.
- 모방 데이터를 많이 학습에 쓸수록, 성능이 하락할 수도 있다. (그림 4의 (1,3)셀)
- 이는 모방모델이 insturction-tuning은 대화 형식으로 학습되는 것이고, 이를 downstream 벤치마크로 적용하다보니 생기는 문제
- Improving base LMs is the highest leverage action.
- 모방 데이터 크기를 늘리는 것보다는 더 좋은 base LM을 사용하는 것(기본 모델 크기를 증가시킴)이 상당한 정확도 향상으로 이어진다는 사실을 발견했습니다 (Figure 4, 하단).
- 이는 이전의 주장과 일치합니다: 현재의 open-source LMs and their closed-source counterparts 간에는 능력 차이가 있으며, 저렴하게 모방 데이터에 미세 조정하는 것으로는 이 차이를 해소할 수 없습니다.
- 대신, 오픈 소스 LM을 개선하는 가장 좋은 방법은 모델 크기 확장이나 다른 방법을 통해 더 나은 기본 LM을 개발하는 어려운 도전에 집중하는 것입니다.
- 이 논문의 핵심중의 하나인 거 같은데 base PLM이 성능에 중요하다는 것!
- 당연한 얘기지만, 모방 데이터를 단순히 늘리는 것보다 base PLM을 좋은 것을 쓰자!
4.4 Imitation Models Learn Style, Not Content
- 마침내, 우리는 크라우드워커 평가와 NLP 벤치마크 결과 사이에 강한 불일치가 있는 이유를 조사합니다.
- 여기서 모방 모델이 크라우드워커 평가에서 강력하게 성능을 내는 이유는 ChatGPT의 스타일을 능숙하게 모방하기 때문입니다.
- 그들은 유창하고 자신감 있으며 잘 구조화된 답변을 출력하는 데 능숙합니다.
- 특히 테이블 2에서 보여주는 대로, 더 많은 모방 데이터를 추가함에 따라 ChatGPT와 우리의 모방 모델은 답변의 길이, 단어 선택, 권위 있는 어조 사용 및 목록 사용과 같은 하위 수준 구조에서 유사한 출력을 생성합니다.
- 그러나 이전 자동 평가에서 보여준 대로, 모방 모델은 factuality이 약합니다.
- 다시 말해, 모방 모델은 신뢰감 있게 들리지만 ChatGPT보다 사실적이지 않은 답변을 내놓습니다.
- 이는 아마도 그림 2에서 가장 잘 설명되는데, 모방 모델은 ChatGPT의 답변과 유사한 스타일로 답변하지만 완전히 잘못된 내용입니다.
- Human evaluation is increasingly hard.
- 유감스럽게도, 도메인 전문지식이나 상당한 시간 투자 없이 작업하는 크라우드 워커들은 종종 자신감 있고 옳은 답변으로 들리는 스타일적인 구성 요소에 속아넘어가기 쉽습니다.
- 인간 평가를 개선하기 위해서는 도메인 전문가와 협력할 필요가 있을 뿐만 아니라, 각 모델의 능력을 엄격하게 테스트할 수 있는 매우 어려운 프롬프트 세트를 선별하는 것이 점점 더 필요해지고 있습니다.
- 놀랍게도, 우리의 GPT-4 평가도 크라우드워커 평가와 동일한 경향을 보여주었으며 (다만 ChatGPT의 출력에 약간 더 큰 절대적인 선호도가 있음), 이는 GPT-4가 어떤 작업에서는 인간 평가를 비교적 저렴하게 모방하는 데 유망한 후보가 될 수 있음을 시사합니다.
- 그러나 이는 LLMs(언어 모델)이 인간과 유사한 인지적 편향을 반영할 수도 있다는 것을 나타냅니다.
- 이 가능성을 더 탐구하는 미래의 연구를 기대하고 있습니다.
- Imitation models inherit the safety and toxicity style of the teacher model.
- 마지막으로, 모방이 목표 모델의 "스타일"이나 "페르소나"만을 모방하는 이점을 제공하더라도 그 자체로 가치가 있습니다.
- 예를 들어, OpenAI는 ChatGPT를 최종 사용자에게 "무해하게" 훈련시키기 위해 신중하고 의도적으로 노력하며 종종 유해한 결과를 피하고 의문스러운 사용자 요청에 대한 응답을 거부하는 방식으로 작동하도록 훈련시켰습니다.
- 우리는 모방 모델도 이러한 구성 요소를 상속받는다는 사실을 발견했습니다.
- 특히 그림 5에서 볼 수 있듯이, 더 많은 모방 데이터로 세밀조정할수록 모방 모델의 출력은 RealToxicityPrompts에서 덜 유해해지며, 모델이 ChatGPT와 유사한 방식으로 삼가기를 학습합니다.
- 따라서 우리는 모델 모방이 강력한 기본 언어 모델을 보유하고 고가의 세밀조정 데이터 주석 작업을 회피하려는 경우에 매우 효과적임을 결론지었습니다.
5 Discussion
- Finetuning as a simple knowledge extractor.
- 우리의 결과는 적절한 양의 미세 조정이 언어 모델(LM)의 knowledge or capabilities에 별다른 개선을 가져오지 않음을 보여줍니다.
- 따라서 우리는 미세 조정이 LM의 능력의 주요 원천이 pre-training이며, 미세 조정은 모델이 자체 지식을 추출하기 위한 경량 메서드로 작용한다는 견해와 일치합니다.
- 이것이 작은 데이터 세트에서 ChatGPT를 모방하여 모델을 개선하는 것만으로는 불충분하다는 이유입니다.
- base knowledge은 크게 영향을 받지 않습니다.
- 게다가 이 관점은 미세 조정 시간 동안 새로운 지식을 도입하는 것을 피하려고 할 수도 있음을 시사합니다 (즉, 더 나은 모델을 모방하지 마십시오).
- 그렇지 않으면 모델을 의도한 대로 작업하는 대신 답변을 추측하거나 환상할 수 있기 때문입니다 .
- Should you be worried about imitation?
- 독점 LM을 모방하는 것은 중소기업과 대기업 모두에게 많은 잠재적 영향을 미칩니다.
- 우리의 결과는 base LM과 target LM 간에 큰 격차가 있는 경우 모델 모방의 효과가 제한된다는 것을 시사합니다.
- 따라서 우리는 대량의 데이터, 컴퓨팅 자원 또는 알고리즘 개발을 활용하여 능력 격차를 확립할 수 있는 회사가 경쟁 우위를 구축하고 유지할 수 있는 최적의 위치에 있는 것으로 믿습니다.
- 반면, 상용 미세 조정 데이터셋을 사용하여 외부 제공 LM을 활용하여 보호막을 구축하려는 회사는 모방에 비교적 취약할 수 있다고 생각합니다.
- Potential confounders to our findings.
- 우리는 우리의 연구 결과가 잘 지지된다고 믿지만, 몇 가지 잠재적인 숨겨진 혼란 변수가 우리의 결론을 변경할 수 있다.
- 첫째, 우리는 ChatGPT의 사전 훈련 데이터를 알지 못하기 때문에, 우리가 평가하는 일부 작업이 ChatGPT의 훈련 데이터에 오염될 수 있으며, 이로 인해 정확도 수치가 과장될 가능성이 있습니다.
- 게다가, 모방을 수행하기 위해 대상 모델의 출력물에 대한 지도 학습을 수행합니다.
- 그러나 대상 모델을 사용하여 RLHF(강화학습 기반 고성능 미세 조정) 또는 constitutional AI(을 수행하여 결과를 더 개선할 수도 있을 것입니다.
- 마지막으로, 우리는 모방 데이터 수집을 위해 비교적 간단한 방법만 고려했지만, 더 발전된 방법(예: active learning)이 모델 모방의 효과나 효율성을 더 개선할 수 있을 것입니다.
- Implications for other forms of model imitation
- 최근에는 우리가 여기서 연구한 것보다 더 간접적인 방식으로 모델 모방을 수행하는 연구가 많이 집중되고 있습니다.
- 예를 들어, 최근의 많은 비전-언어 모델의 교육 과정은 어느 정도의 단계에서 ChatGPT나 GPT-4 출력물을 포함하고 있습니다.
- 더욱이 데이터 주석 및 생성 과정에서 큰 언어 모델을 다양한 방식으로 사용하는 것이 일반적으로 되어왔습니다.
- 이는 크라우드 워커를 지원하거나 데이터 증강을 수행하거나 잘못 레이블된 데이터를 식별하는 데 사용되는 등의 목적으로 활용됩니다.
- 우리의 결과는 이러한 접근 방식에 영향을 미칠 수 있습니다.
- 예를 들어, OpenAI 데이터를 포함하는 비전-언어 모델은 우리의 연구에서 설명한 실패 모드와 유사한 현상을 나타낼 가능성이 높습니다.
- Technical limitations of model imitation
- 독점 모델을 모방하는 것에는 다양한 기술적 제한 사항이 있습니다.
- 모델은 독점 모델의 약점과 편향성을 상속받으며, 모방은 폐쇄된 AI 회사의 설계 결정(예: 데이터 주석 전략)을 직접 개선하는 것을 허용하지 않습니다.
- 이러한 시스템은 대체로 target 독점 모델의 능력에 상한선이 있습니다.
- 게다가, 모방 모델은 훈련 파이프라인에 독점 블랙 박스 모델이 포함되어 있기 때문에 특정한 과학적 질문에 답하는 것이 어렵습니다.
- 즉 모방모델은 독점모델을 따라하지만, PLM의 성능이 부족하기 때문에 지식, 능력이 기본적으로 차이난다.
- 따라서, 잘 모르는 답변을 추측하거나 할루시네이션하는 문제점이 두드러진다.
- 하지만 특정 테스크에 대해 독점 모델을 모방하는 것은 괜찮기 때문에, 회사에서는 특정 테스크에서 독점 모델을 모방해가는 것을 막기는 어렵다.
- 독점모델로 뽑은 데이터로 모방모델을 학습시킬때, 단순하게fine-tuning했는데, RLHF등을 통해서 개선시킬 여지가 있긴 하다.
- 또한 독점모델의 약점 및 편향성을 그대로 카피하는 경향이 있고, 독점모델또한 능력에 상한선이 있기 때문에 과학적/사실적인 질문에 대답하는 것은 어렵다.
6 Related Work
- Model distillation
- 모델 모방은 model distillation와 유사합니다.
- 여기서 학생 모델을 선생님 모델을 모방하도록 훈련시킵니다. 개념적으로 유사하지만, 실제로는 몇 가지 주요한 차이점이 있습니다.
- distillation의 경우, 선생님의 훈련 데이터, 모델 아키텍처 및 하이퍼파라미터가 알려져 있습니다.
- 그러나 모델 모방에서는 이러한 지식 없이 선생님을 모방하려고 시도합니다.
- 게다가, 증류에서는 일반적으로 선생님의 확률 분포를 활용하는 훈련 목표를 사용하는 것이 흔한데, 모델 모방에서는 이러한 분포를 일반적으로 활용할 수 없습니다.
- Past work on model imitation
- 이전 연구에서는 language classifiers and machine translation systems을 포함한 다양한 도메인에서 모델 모방이 가능함을 보여주었습니다.
- 그럼에도 불구하고, 과거 연구는 모델이 처음부터 훈련되는 상황을 고려하여, 모델의 주된 독점 특성은 회사의 내부 훈련 데이터입니다.
- 우리의 설정에서는 ChatGPT와 같은 시스템이 독점인 이유는 OpenAI의 내부 사전 훈련된 LM도 활용하기 때문입니다.
- 이 내부 LM은 현재 공개된 어떤 LM보다 강력합니다.
- Defending against model imitation
- 우리의 결과는 모방이 회사에 중요한 우려사항임을 보여줍니다.
- 그 결과, 모방을 완화하거나 탐지하기 위한 방법을 개발해야 할 필요가 있습니다.
- 이미 이 방향으로 진행된 연구가 있습니다.
- 예를 들어 특정 모델이 일부 성능을 희생하여 모방 또는 느린 모델 도용을 통해 훈련되었는지 감지할 수 있습니다
- 이를 위해 약간의 성능을 희생함으로써입니다.
- 그러나 아쉽게도 기존의 방법들은 실제로 배포 가능한 수준의 트레이드오프를 보이기 어려운 경우가 많습니다.
7 Conclusion and Future Work
- 이 연구에서 우리는 모델 모방의 효과를 비판적으로 분석했습니다.
- 우리는 모방이 실제로 오픈 소스 언어 모델의 스타일, 페르소나 및 지시 준수를 개선할 수 있다는 것을 보였습니다.
- 그러나 모방은 사실성, 코딩 및 문제 해결과 같이 더 도전적인 측면에서 언어 모델을 개선하는 데 한계가 있습니다.
- 한편, 이러한 결과는 기업이 강력한 기본 모델을 사전 훈련함으로써 경쟁 우위를 성공적으로 확립하고 보호할 수 있다는 것을 나타냅니다.
- 역으로, 두 그룹이 동일하게 유능한 기본 언어 모델을 보유하고 있다면 한 모델의 페르소나와 행동을 다른 모델이 고가의 미세 조정 데이터를 주석 달 필요 없이 손쉽게 모방할 수 있다는 것을 시사합니다.
- 앞으로 우리의 결과는 기술적 및 사회적인 다양한 질문을 던집니다.
- 첫째, 우리는 기존의 크라우드 워커 평가가 모방 모델과 프로프라이어터리 모델 간의 차이를 명확히 해명하는 데 어려움을 겪는다는 것을 보였습니다.
- 결과적으로 인간 평가의 미래는 불투명합니다: 강력한 언어 모델의 유용성을 어떻게 저렴하고 빠르게 조사할 수 있을까요?
- 둘째, LLaMA와 ChatGPT 사이의 큰 격차 (후자 모델이 더 빠르고 저렴하며 정확함)와 모델 모방의 불충분함을 고려할 때, 오픈 소스 언어 모델을 어떻게 가장 잘 개선할 수 있는지에 대한 명백한 미해결 질문이 있습니다 (예: 모델 규모 확장, 사전 훈련 데이터 품질 개선, 새로운 사전 훈련 방법 개발 등).
- 마지막으로, 우리의 연구는 윤리적 및 법적인 문제를 제기합니다.
- 이는 오픈 소스 커뮤니티가 OpenAI와 기타 회사가 한 것을 "훔치는" 방식으로 계속 진보를 이루어 나가야 하는지, 그리고 회사들이 지적 재산을 보호하고 라이선스화하기 위해 어떤 법적 대책을 취할 수 있는지에 대한 문제입니다.
- 미래의 연구에서 우리는 이러한 문제에 더 깊이 관여하고 언어 모델의 윤리적이고 책임 있는 배포를 위한 더 나은 방법을 개발하길 희망합니다.
Reference
댓글
댓글 쓰기