NL-177, GPT-4 Technical Report, OpenAI
0 Abstract
- 이미지와 텍스트 입력을 받아 텍스트 출력을 생성할 수 있는 대규모 멀티모달 모델인 GPT-4의 개발 소식을 알려드립니다.
- 많은 실제 시나리오에서 인간보다 성능이 떨어지지만, GPT-4는 모의 변호사 시험에서 응시자 중 상위 10% 정도의 점수로 합격하는 등 다양한 직업 및 학문적 벤치마크에서 인간 수준의 성능을 보여줍니다.
- GPT-4는 문서에서 다음 토큰을 예측하도록 사전 학습된 Transformer 기반 모델입니다.
- 훈련 후 정렬 프로세스를 통해 사실성 및 원하는 행동 준수 측정에 대한 성능이 향상됩니다.
- 이 프로젝트의 핵심 요소는 광범위한 규모에서 예측 가능하게 작동하는 인프라와 최적화 방법을 개발하는 것이었습니다.
- 이를 통해 GPT-4의 1/1,000 이하의 연산으로 훈련된 모델을 기반으로 GPT-4 성능의 일부 측면을 정확하게 예측할 수 있었습니다.
1 Introduction
- 이 기술 보고서에서는 이미지와 텍스트 입력을 처리하고 텍스트 출력을 생성할 수 있는 대규모 멀티모달 모델인 GPT-4를 소개합니다.
- 이러한 모델은 대화 시스템, 텍스트 요약, 기계 번역 등 다양한 애플리케이션에 사용될 수 있는 잠재력을 가지고 있어 중요한 연구 분야입니다.
- 따라서 최근 몇 년 동안 상당한 관심과 발전이 이루어지고 있습니다[1-28].
- 이러한 모델을 개발하는 주요 목표 중 하나는 특히 더 복잡하고 미묘한 시나리오에서 자연어 텍스트를 이해하고 생성하는 능력을 향상시키는 것입니다.
- 이러한 시나리오에서의 능력을 테스트하기 위해 GPT-4는 원래 인간을 위해 설계된 다양한 시험에서 평가되었습니다.
- 이러한 평가에서 GPT-4는 매우 우수한 성능을 보였으며 종종 대다수의 인간 응시자보다 높은 점수를 받았습니다.
- 예를 들어, 모의 변호사 시험에서 GPT-4는 응시자 중 상위 10%에 속하는 점수를 획득했습니다.
- 이는 하위 10%에 속하는 GPT-3.5와 대조를 이룹니다.
- 전통적인 NLP 벤치마크 제품군에서 GPT-4는 이전의 대규모 언어 모델과 대부분의 최신 시스템(벤치마크에 특화된 훈련 또는 수작업 엔지니어링이 필요한 경우가 많음)을 모두 능가하는 성능을 보였습니다.
- 57개 주제를 다루는 영어 객관식 문제 모음인 MMLU 벤치마크[29, 30]에서 GPT-4는 영어에서 기존 모델을 상당한 차이로 능가할 뿐만 아니라 다른 언어에서도 강력한 성능을 발휘합니다.
- MMLU의 번역된 변형 모델에서 GPT-4는 26개 언어 중 24개 언어에서 영어의 최신 기술을 능가합니다.
- 이러한 모델 기능 결과와 모델 안전성 개선 및 결과에 대해서는 이후 섹션에서 자세히 설명합니다.
- 또한 이 보고서에서는 프로젝트의 핵심 과제인 광범위한 규모에서 예측 가능하게 작동하는 딥러닝 인프라 및 최적화 방법 개발에 대해서도 설명합니다.
- 이를 통해 훈련에 대한 신뢰도를 높이기 위해 최종 훈련과 비교하여 테스트한 GPT-4의 예상 성능(유사한 방식으로 훈련된 소규모 훈련을 기반으로 함)을 예측할 수 있었습니다.
- 이러한 기능에도 불구하고 GPT-4는 이전의 GPT 모델[1, 31, 32]과 유사한 한계를 가지고 있습니다.
- 즉, 완전히 신뢰할 수 없고(예: "hallucinations"이 발생할 수 있음), 컨텍스트 창이 제한적이며, 경험을 통해 학습하지 못한다는 것입니다.
- 특히 신뢰성이 중요한 상황에서는 GPT-4의 출력을 사용할 때 주의를 기울여야 합니다.
- GPT-4의 기능과 한계는 중대하고 새로운 안전 문제를 야기하며, 잠재적인 사회적 영향을 고려할 때 이러한 문제에 대한 신중한 연구가 중요한 연구 분야라고 생각합니다.
- 이 보고서에는 편견, 허위 정보, 과도한 의존, 개인정보 보호, 사이버 보안, 확산 (bias, disinformation, over-reliance, privacy, cybersecurity, proliferation) 등과 관련하여 예상되는 몇 가지 위험을 설명하는 광범위한 시스템 카드(부록 뒤)가 포함되어 있습니다.
- 또한 도메인 전문가를 통한 adversarial testing, model-assisted safety 파이프라인 등 GPT-4 배포로 인한 잠재적 피해를 완화하기 위해 취한 개입 조치에 대해서도 설명합니다.
2 Scope and Limitations of this Technical Report
- 이 보고서는 GPT-4의 capabilities, limitations, and safety 속성에 중점을 둡니다.
- GPT-4는 공개적으로 사용 가능한 데이터(예: 인터넷 데이터)와 타사 제공업체로부터 라이선스를 받은 데이터를 모두 사용하여 문서의 다음 토큰을 예측하도록 사전 학습된 트랜스포머 스타일 모델[33]입니다.
- 그런 다음 인간 피드백을 통한 강화 학습(RLHF)[34]을 사용하여 모델을 미세 조정했습니다.
- 경쟁 환경과 GPT-4와 같은 대규모 모델의 안전성을 모두 고려할 때, 이 보고서에는 아키텍처(모델 크기 포함), 하드웨어, 훈련 컴퓨팅, 데이터 세트 구성, 훈련 방법 등에 대한 자세한 내용은 포함되어 있지 않습니다.
- 띠용..?
- 우리는 기술에 대한 독립적인 감사에 전념하고 있으며 이 릴리스와 함께 제공되는 시스템 카드에서 이 영역에 대한 몇 가지 초기 단계와 아이디어를 공유했습니다.
- 위의 competitive and safety considerations과 투명성 강화라는 과학적 가치를 비교 검토하는 방법에 대해 조언을 제공할 수 있는 제3자에게 추가적인 기술적 세부 정보를 제공할 계획입니다.
3 Predictable Scaling
- GPT-4 프로젝트의 가장 큰 초점은 예측 가능한 확장이 가능한 딥 러닝 스택을 구축하는 것이었습니다.
- 가장 큰 이유는 GPT-4와 같은 대규모 훈련 실행의 경우 모델별로 광범위한 튜닝을 수행하는 것이 불가능하기 때문입니다.
- 이 문제를 해결하기 위해 여러 규모에 걸쳐 매우 예측 가능한 동작을 하는 인프라와 최적화 방법을 개발했습니다.
- 이러한 개선을 통해 1, 000배~10, 000배 적은 컴퓨팅을 사용하여 훈련된 소규모 모델에서도 GPT-4 성능의 일부 측면을 안정적으로 예측할 수 있게 되었습니다.
3.1 Loss Prediction
- 적절하게 학습된 대규모 언어 모델의 최종 손실은 모델 학습에 사용된 컴퓨팅 양에서 거듭제곱 법칙에 의해 잘 근사화될 수 있다고 생각됩니다.
- 최적화 인프라의 확장성을 검증하기 위해 내부 코드베이스(훈련 세트의 일부가 아님)에 환원 불가능한 손실 항이 있는 스케일링 법칙을 적용하여 GPT-4의 최종 손실을 예측했습니다(Henighan에서와 같이):
- L(C) = aCb + c, 동일한 방법론을 사용하여 훈련되었지만 GPT-4보다 최대 10,000배 적은 컴퓨팅을 사용하는 모델에서.
- 이 예측은 부분적인 결과를 사용하지 않고 실행이 시작된 직후에 이루어졌습니다.
- 적합된 스케일링 법칙은 GPT-4의 최종 손실을 높은 정확도로 예측했습니다(그림 1).
- GPT-4 및 더 작은 모델의 성능. 이 지표는 내부 코드베이스에서 파생된 데이터 세트의 최종 손실입니다. 이것은 훈련 세트에 포함되지 않은 코드 토큰으로 구성된 편리하고 큰 데이터 세트입니다. 다양한 훈련 연산량에 걸쳐 다른 측정값보다 노이즈가 적은 경향이 있기 때문에 손실을 살펴보기로 했습니다. 작은 모델(GPT-4 제외)에 대한 거듭제곱법 적합도가 점선으로 표시되어 있으며, 이 적합도는 GPT-4의 최종 손실을 정확하게 예측합니다. X축은 GPT-4가 1이 되도록 정규화된 훈련 계산입니다.
- 즉 정리하면, 작은 모델들을 학습한다.
- 이때드는 컴퓨팅파워가 있을 텐데, 그를 위 그래프처럼 찍는다
- 이 점들을 잇는 선을 예측하면 prediction line이 생긴다.
- x축에 우리가 학습할 모델 (GPT4)에 해당하는 컴퓨팅을 가져다대면 loss가 예측된다.
- 이는 실제 loss 값 (초록색)과 상당히 유사하다..
- 그리고 아마 이 과정속에서 학습에 적절한 세팅값들도 찾았을거 같음
3.2 Scaling of Capabilities on HumanEval
- 훈련 전에 모델의 capabilities을 파악하면 정렬, 안전 및 배포와 관련된 의사 결정을 개선할 수 있습니다.
- 최종 손실을 예측하는 것 외에도 더 해석 가능한 capability 지표를 예측하는 방법론을 개발했습니다.
- 이러한 지표 중 하나는 다양한 복잡성을 가진 Python 함수를 합성하는 능력을 측정하는 HumanEval 데이터 세트[37]의 합격률입니다.
- 최대 1, 000배 적은 컴퓨팅으로 훈련된 모델에서 외삽하여 HumanEval 데이터 세트의 하위 집합에 대한 합격률을 성공적으로 예측했습니다(그림 2).
- GPT-4 및 더 작은 모델의 성능. 메트릭은 HumanEval 데이터 세트의 하위 집합에 대한 평균 로그 통과율입니다. 더 작은 모델(GPT-4 제외)에 대한 거듭제곱법 적합도가 점선으로 표시되어 있으며, 이 적합도는 GPT-4의 성능을 정확하게 예측합니다. X축은 GPT-4가 1이 되도록 정규화된 훈련 컴퓨팅입니다.
- loss예측처럼 coding problems에 해당하는 성능도 예측이 가능하다
- 근데 모든 테스크에 대해 이러한 예측이 가능하진 않다고 한다. 일부에 대해서만 가능한듯
- HumanEval의 개별 문제의 경우 규모에 따라 성능이 때때로 악화될 수 있습니다.
- 이러한 문제에도 불구하고 대략적인 파워 법칙 관계 -EP [log(pass_rate(C))] = α∗C -k를 찾을 수 있습니다. 여기서 k와 α는 양의 상수이고, P는 데이터 세트에서 문제의 하위 집합입니다.
- 이 관계는 이 데이터 세트의 모든 문제에 대해 유지된다고 가정합니다.
- 실제로는 매우 낮은 합격률은 예측하기 어렵거나 불가능하므로, 대규모 샘플 예산이 주어지면 모든 모델이 모든 문제를 적어도 한 번은 풀 수 있도록 문제 P와 모델 M으로 제한합니다.
- 훈련 완료 전에 사용 가능한 정보만 사용하여 훈련이 완료되기 전에 HumanEval에 GPT-4의 성능에 대한 예측을 등록했습니다.
- 가장 어려운 15개의 HumanEval 문제를 제외한 모든 문제는 더 작은 모델의 성능을 기준으로 6개의 난이도 버킷으로 나눴습니다.
- 세 번째로 쉬운 세 번째 버킷에 대한 결과는 그림 2에 나와 있으며, 여러 개의 작은 모델에 대해 로그(통과율)를 정확하게 추정할 수 있는 이 HumanEval 문제의 하위 집합에서 예측 결과가 매우 정확하다는 것을 보여줍니다.
- 다른 5개 버킷에 대한 예측도 거의 비슷하게 수행되었으며, 가장 쉬운 버킷에 대한 예측에서 GPT-4의 성능이 저조한 것이 주요 예외였습니다.
- 특정 capabilities은 여전히 예측하기 어렵습니다.
- 예를 들어, 역확장상[38]은 규모에 따라 모델 성능이 감소하는 몇 가지 작업을 제안했습니다.
- Wei[39]의 최근 연구 결과와 유사하게, 그림 3의 Hindsight Neglect[40]라는 과제 중 하나에서 볼 수 있듯이, GPT-4는 이러한 추세를 역전시키는 것을 발견했습니다.
- 모델이 커지면 모든 것에서 강력해질 것 같지만 이러한 예상과 다르게 Hindsight Neglect은 모델이 커질수록 성능이 떨어지는 챌린지 같은 것이다.
- 아마 덧셈 뺄셈 이런게 아닐까? 싶은데
- 어쨌든 여기서 GPT4는 SoTA를 찍는다. 그래프보면 성능이 100인거 같은데.. 말이 되는 수친가. ㅋㅋㅋ
- 우리는 안전을 위해 미래의 기능을 정확하게 예측하는 것이 중요하다고 생각합니다.
- 앞으로 이러한 방법을 개선하고 대규모 모델 학습이 시작되기 전에 다양한 기능에 대한 성능 예측을 등록할 계획이며, 이것이 현장에서 공통의 목표가 되기를 바랍니다.
4 Capabilities
- 저희는 원래 사람을 대상으로 설계된 시험 시뮬레이션을 포함하여 다양한 벤치마크에서 GPT-4를 테스트했습니다.
- 이러한 시험에 대한 특별한 훈련은 하지 않았습니다.
- 시험의 일부 문제는 훈련 중에 모델에 의해 발견되었으며, 각 시험마다 이러한 문제를 제거한 변형을 실행하고 두 가지 중 더 낮은 점수를 보고했습니다.
- 이 결과가 대표성이 있다고 생각합니다.
- contamination에 대한 자세한 내용(방법론 및 시험별 통계)은 부록 C를 참조하세요.
- 시험은 공개적으로 사용 가능한 자료에서 제공되었습니다.
- 시험 문제에는 객관식과 자유 응답형 문제가 모두 포함되었습니다;
- 각 형식에 대해 별도의 프롬프트를 디자인했으며, 이미지가 필요한 문제의 경우 이미지가 입력에 포함되었습니다.
- 평가 설정은 검증 시험 세트에 대한 성과를 기반으로 설계되었으며, 보류된 시험에 대한 최종 결과를 보고했습니다.
- 전체 점수는 각 시험에 대해 공개적으로 사용 가능한 방법론을 사용하여 객관식 및 자유응답형 문제 점수를 결합하여 결정되었습니다.
- 시험 평가 방법론에 대한 자세한 내용은 부록 A를 참조하세요.
- GPT-4는 이러한 대부분의 전문직 및 학술 시험에서 인간 수준의 성능을 보여줍니다.
- 특히, 모의 변호사 시험에서 응시자 중 상위 10%에 속하는 점수로 통과했습니다
- 시험에 대한 이 모델의 능력은 주로 사전 훈련 과정에서 비롯된 것으로 보이며 RLHF의 영향을 크게 받지 않는 것으로 나타났습니다.
- 객관식 문제에서 기본 GPT-4 모델과 RLHF 모델은 테스트한 모든 시험에서 평균적으로 동등하게 잘 수행했습니다(부록 B 참조).
- 또한 언어 모델을 평가하기 위해 설계된 기존 벤치마크에서 사전 학습된 기본 GPT-4 모델을 평가했습니다.
- 보고하는 각 벤치마크에 대해 훈련 세트에 나타나는 테스트 데이터에 대한 오염도 검사를 실행했습니다(벤치마크별 오염도에 대한 자세한 내용은 부록 D 참조).
- GPT-4를 평가할 때 모든 벤치마크에 대해 few-shot prompting를 사용했습니다.
- GPT-4는 기존 언어 모델뿐만 아니라 벤치마크에 특화된 제작 또는 추가 훈련 프로토콜이 있는 이전의 최첨단(SOTA) 시스템보다 훨씬 뛰어난 성능을 보였습니다.
- 기존의 많은 ML 벤치마크는 영어로 작성되어 있습니다.
- 다른 언어에 대한 GPT-4의 성능을 파악하기 위해 57개 과목에 걸친 객관식 문제 모음인 MMLU 벤치마크를 Azure 번역을 사용하여 다양한 언어로 번역했습니다(번역 및 프롬프트 예는 부록 F 참조).
- 라트비아어, 웨일스어, 스와힐리어와 같이 리소스가 적은 언어를 포함하여 테스트한 대부분의 언어에서 GPT-4가 GPT 3.5의 영어 성능과 기존 언어 모델(Chinchilla [2] 및 PaLM [3])을 능가하는 것으로 나타났습니다.
- GPT-4는 사용자 의도를 따르는 능력에서 이전 모델보다 크게 향상되었습니다[57].
- ChatGPT와 OpenAI API에 제출된 5,214개의 프롬프트 데이터 세트에서 70.2%의 프롬프트에 대해 GPT-4가 생성한 응답이 GPT-3.5가 생성한 응답보다 선호되었습니다.
- 저희는 샘플별로 성능을 검사하면서 GPT-4와 같은 모델을 평가하기 위한 벤치마크를 생성하고 실행하기 위한 프레임워크인 OpenAI Evals를 오픈소스로 공개하고 있습니다.
- Evals는 기존 벤치마크와 호환되며 배포 중인 모델의 성능을 추적하는 데 사용할 수 있습니다.
- 시간이 지남에 따라 이러한 벤치마크의 다양성을 늘려 더 광범위한 장애 모드와 더 어려운 작업 세트를 나타낼 계획입니다.
4.1 Visual Inputs
- GPT-4는 이미지와 텍스트로 구성된 프롬프트를 모두 허용하며, 텍스트 전용 설정과 마찬가지로 사용자가 시각 또는 언어 작업을 지정할 수 있습니다.
- 특히 이 모델은 임의로 인터레이스된 텍스트와 이미지로 구성된 입력이 주어지면 텍스트 출력을 생성합니다.
- 텍스트와 사진이 포함된 문서, 다이어그램, 스크린샷 등 다양한 영역에서 GPT-4는 텍스트만 입력할 때와 유사한 기능을 발휘합니다.
- GPT-4의 시각적 입력의 예는 표 3에서 확인할 수 있습니다.
- 언어 모델용으로 개발된 표준 테스트 시간 기법(예: 소수 샷 프롬프트, 연쇄 사고 등)은 이미지와 텍스트를 모두 사용할 때 비슷하게 효과적입니다(예는 부록 G 참조).
- 좁은 범위의 학술적 비전 벤치마크에 대한 예비 결과는 GPT-4 블로그 게시물 [59]에서 확인할 수 있습니다.
- 후속 연구를 통해 GPT-4의 시각적 기능에 대한 자세한 정보를 공개할 계획입니다.
5 Limitations
- 이러한 기능에도 불구하고 GPT-4는 이전 GPT 모델과 비슷한 한계를 가지고 있습니다.
- 가장 중요한 것은 여전히 완전히 신뢰할 수 없다는 점입니다(사실을 'hallucinates'하고 reasoning errors를 범함).
- 특히 위험도가 높은 상황에서 언어 모델 출력을 사용할 때는 특정 애플리케이션의 요구 사항에 맞는 정확한 프로토콜(사람의 검토, 추가 컨텍스트를 통한 근거 마련, 위험도가 높은 사용은 아예 피하기 등)을 통해 세심한 주의를 기울여야 합니다.
- 자세한 내용은 시스템 카드를 참조하세요. GPT-4는 이전 GPT-3.5 모델(지속적인 반복을 통해 개선되고 있음)에 비해 환각을 현저히 감소시킵니다.
- GPT-4는 적대적으로 설계된 내부 사실성 평가에서 최신 GPT-3.5보다 19% 포인트 더 높은 점수를 받았습니다(그림 6).
- 내부적으로 적대적으로 설계된 9가지 사실성 평가에 대한 GPT-4의 성능. 정확도는 Y축에 표시되며 높을수록 좋습니다. 정확도 1.0은 평가의 모든 질문에 대해 모델의 답변이 인간의 이상적인 답변과 일치하는 것으로 판단된다는 것을 의미합니다. GPT-4를 GPT-3.5를 기반으로 한 세 가지 이전 버전의 ChatGPT[64]와 비교한 결과, GPT-4는 최신 GPT-3.5 모델에 비해 19% 포인트 개선되었으며 모든 주제에서 상당한 개선이 있었습니다.
- GPT-4는 적대적으로 선택된 잘못된 문장 세트에서 사실을 분리하는 모델의 능력을 테스트하는 TruthfulQA[60]와 같은 공개 벤치마크에서 진전을 이루었습니다(그림 7).
- 이러한 질문은 통계적으로 매력적인 사실에 근거한 오답과 짝을 이룹니다.
- GPT-4 기본 모델은 GPT-3.5보다 이 과제에서 약간 더 나은 성능을 보입니다;
- GPT-4는 일반적인 속담(늙은 개에게 새로운 재주를 가르칠 수는 없다)을 선택하지 못하지만 미묘한 세부 사항(엘비스 프레슬리는 배우의 아들이 아니므로 퍼킨스가 정답이다)은 놓칠 수 있습니다.
- GPT-4는 일반적으로 사전 학습 데이터의 대부분이 2021년 9월에 끊긴 이후에 발생한 사건에 대한 지식이 부족하며, 경험을 통해 학습하지 않습니다.
- 때로는 수많은 영역에서 능력에 맞지 않는 단순한 추론 오류를 범하거나 사용자의 명백한 거짓 진술을 지나치게 쉽게 받아들일 수 있습니다.
- 생성하는 코드에 보안 취약점을 도입하는 등 인간과 마찬가지로 어려운 문제에서 실패할 수 있습니다.
- 또한 GPT-4는 실수할 가능성이 있는 작업을 재확인하지 않고 자신 있게 예측을 틀릴 수도 있습니다.
- 흥미롭게도 사전 학습된 모델은 고도로 보정되어 있습니다(답변에 대한 예측 신뢰도는 일반적으로 정답 확률과 일치합니다).
- 그러나 학습 후 프로세스가 끝나면 보정이 감소합니다(그림 8). GPT-4는 출력에 다양한 편향이 있으며, 이를 수정하기 위해 노력하고 있지만 완전히 특성화하고 관리하는 데는 시간이 걸릴 것입니다.
- PPO로인해 calibration이 깨지는 듯한 느낌?
- 왼쪽: MMLU 데이터 세트의 하위 집합에 대한 사전 학습된 GPT-4 모델의 캘리브레이션 플롯. X축은 각 질문에 대한 각 A/B/C/D 선택에 대한 모델의 신뢰도(로그 확률)에 따른 구간이며, Y축은 각 구간 내 정확도입니다. 점선으로 표시된 대각선은 완벽한 보정을 나타냅니다. 오른쪽: MMLU의 동일한 하위 집합에 대한 훈련 후 GPT-4 모델의 보정 플롯. 훈련 후 보정이 크게 저하됨
- 저희는 GPT-4와 저희가 구축하는 다른 시스템이 광범위한 사용자 가치를 반영하는 합리적인 기본 동작을 갖도록 하고, 이러한 시스템을 어느 정도 범위 내에서 사용자 정의할 수 있도록 하며, 그 범위가 어디까지여야 하는지에 대한 대중의 의견을 수렴하는 것을 목표로 합니다. 자세한 내용은 OpenAI [62]를 참조하세요.
6 Risks & mitigations
- 저희는 GPT-4의 안전성과 정렬을 개선하기 위해 상당한 노력을 기울였습니다.
- 여기에서는 적대적 테스트와 레드팀에 도메인 전문가를 활용하고, 모델 지원 안전 파이프라인과 이전 모델에 비해 안전 지표가 개선된 점을 강조합니다.
- Adversarial Testing via Domain Experts:
- GPT-4는 유해한 조언, 버그가 있는 코드 또는 부정확한 정보를 생성하는 등 소규모 언어 모델과 유사한 위험을 초래할 수 있습니다.
- 그러나 GPT-4의 추가 기능으로 인해 새로운 위험이 발생할 수 있습니다.
- 이러한 위험의 정도를 파악하기 위해 장기적인 AI 조정 위험, 사이버 보안, 바이오리스크, 국제 보안 등의 분야에서 50명 이상의 전문가를 참여시켜 모델을 적대적으로 테스트했습니다.
- 이들의 연구 결과를 통해 특히 평가에 틈새 전문 지식이 필요한 고위험 영역에서 모델 동작을 테스트하고 권력 추구와 같이 매우 진보된 AI와 관련될 수 있는 위험을 평가할 수 있었습니다[64].
- 이러한 전문가로부터 수집한 권장 사항과 학습 데이터는 모델에 대한 완화 및 개선에 반영되었습니다;
- 예를 들어, 위험한 화학물질 합성 방법에 대한 요청을 거부하는 GPT-4의 기능을 개선하기 위해 추가 데이터를 수집했습니다(표 5).
- Model-Assisted Safety Pipeline:
- 이전 GPT 모델과 마찬가지로, 사용자의 의도에 더 잘 부합하는 응답을 생성하기 위해 강화 학습을 통한 인간 피드백(RLHF)[34, 57]을 사용하여 모델의 동작을 미세 조정합니다.
- 그러나 RLHF 이후에도 모델은 여전히 안전하지 않은 입력에 취약할 수 있으며, 때로는 안전한 입력과 안전하지 않은 입력 모두에서 원치 않는 동작을 보일 수 있습니다.
- 이러한 원치 않는 동작은 RLHF 파이프라인의 보상 모델 데이터 수집 단계에서 라벨러에 대한 지침이 제대로 지정되지 않았을 때 발생할 수 있습니다.
- 안전하지 않은 입력이 주어지면 모델이 범죄를 저지르는 것에 대한 조언을 제공하는 등 바람직하지 않은 콘텐츠를 생성할 수 있습니다.
- 또한, 모델이 안전한 입력에 대해 지나치게 조심스러워져 무해한 요청을 거부하거나 과도하게 헤징할 수도 있습니다.
- 보다 세분화된 수준에서 적절한 동작으로 모델을 조정하기 위해 모델 자체를 도구로 많이 사용합니다.
- 안전에 대한 우리의 접근 방식은 두 가지 주요 구성 요소, 추가 safety-relevant RLHF training prompts 세트 및 rule-based reward models (RBRMs)로 구성됩니다.
- 규칙 기반 보상 모델(RBRM)은 zero-shot GPT-4 classifiers 세트입니다.
- 이러한 분류기는 유해한 콘텐츠 생성 거부 또는 무해한 요청 거부 등 올바른 행동을 목표로 하는 RLHF 미세 조정 중에 GPT-4 정책 모델에 추가 보상 신호를 제공합니다.
- RBRM은 세 가지 입력을 받습니다:
- 프롬프트(선택 사항), 정책 모델의 출력, 그리고 이 출력을 평가하는 방법에 대한 사람이 작성한 법규(예: 객관식 스타일의 규칙 집합)입니다.
- 그런 다음 RBRM은 루브릭에 따라 출력을 분류합니다.
- 예를 들어, 모델에 응답을 (a) 원하는 스타일의 거부, (b) 원하지 않는 스타일의 거부(예: 회피 또는 횡설수설), (c) 허용되지 않는 콘텐츠 포함, (d) 안전한 비거부 응답 중 하나로 분류하도록 지시하는 규칙을 제공할 수 있습니다.
- (a) a refusal in the desired style, (b) a refusal in the undesired style (e.g., evasive or rambling), (c) containing disallowed content, or (d) a safe non-refusal response.
- 그런 다음 불법적인 조언과 같은 유해한 콘텐츠를 요청하는 일련의 안전 관련 교육 프롬프트에서 이러한 요청을 거부하면 GPT-4에 보상을 제공할 수 있습니다.
- 반대로, 안전하고 답변이 가능한 것으로 보장된 프롬프트의 하위 집합에 대한 요청을 거부하지 않으면 GPT-4에 보상을 제공할 수 있습니다.
- 이 기법은 Glaese 등[65]과 Perez[66]의 연구와 관련이 있습니다.
- 이 기법은 최적의 RBRM 가중치를 계산하고 개선하고자 하는 영역을 대상으로 하는 추가 SFT 데이터를 제공하는 등의 다른 개선 사항과 결합하여 모델을 원하는 동작에 더 가깝게 조정할 수 있었습니다.
- 즉 chatgpt처럼 모델의 reward뿐만 아니라, 룰기반의 reward도 추가하였다.
- 룰 기반은 정확히 어떻게 했는지 모르겠으나..
- (a) a refusal in the desired style,
- (b) a refusal in the undesired style (e.g., evasive or rambling),
- (c) containing disallowed content,
- (d) a safe non-refusal response.
- 위의 4가지 기준이 있는거 같다.
- 즉 답변하면 안될 프롬프트 (불법적인 조언, 유해한 콘텐츠 요청과 같은 safety와 관련된 것)에 대해 응답을 안하면 reward을 준다.
- 또한 safe하고 answerable해도 될 것 같은 프롬프트에 답변하면 reward을 준다.
- Improvements on Safety Metrics:
- 우리의 mitigations는 GPT-4의 많은 안전 속성을 크게 개선했습니다.
- 허용되지 않는 콘텐츠(표 6)에 대한 요청에 응답하는 모델의 경향을 GPT-3.5에 비해 82% 감소했으며 GPT-4는 민감한 요청(예: 의학적 조언 및 자해, 표 7)에 응답합니다.
- 우리 정책을 사용하면 29% 더 자주 발생합니다(그림 9).
- RealToxicityPrompts 데이터 세트[67]에서 GPT-4는 시간의 0.73%만 독성 생성을 생성하는 반면 GPT-3.5는 시간의 6.48%에서 독성 콘텐츠를 생성합니다.
- 전반적으로 우리의 모델 수준 개입은 나쁜 행동을 유도하는 어려움을 증가시키지만 그렇게 하는 것은 여전히 가능합니다.
- 예를 들어 사용 지침을 위반하는 콘텐츠를 생성하는 "탈옥"(예: 적대적 시스템 메시지, 자세한 내용은 시스템 카드의 그림 10 참조)이 여전히 존재합니다.
- 이러한 제한이 존재하는 한 남용 모니터링과 같은 배포 시간 안전 기술과 빠른 반복 모델 개선을 위한 파이프라인으로 이를 보완하는 것이 중요합니다.
- GPT-4 및 후속 모델은 유익하고 해로운 방식으로 사회에 상당한 영향을 미칠 수 있는 잠재력을 가지고 있습니다.
- 우리는 잠재적인 영향을 이해하고 평가하는 방법을 개선하고 미래 시스템에서 나타날 수 있는 위험한 기능에 대한 평가를 구축하기 위해 외부 연구원과 협력하고 있습니다.
- 우리는 곧 사회가 AI의 영향에 대비하기 위해 취할 수 있는 단계에 대한 권장 사항과 AI의 가능한 경제적 영향을 예측하기 위한 초기 아이디어를 발표할 것입니다.
7 Conclusion
- 우리는 특정 어려운 전문 및 학술 벤치마크에서 인간 수준의 성능을 제공하는 대규모 다중 모드 모델인 GPT-4를 특성화했습니다.
- GPT-4는 NLP 작업 모음에서 기존의 대규모 언어 모델을 능가하고 보고된 최신 시스템(종종 작업별 미세 조정 포함)의 대다수를 능가합니다.
- 일반적으로 영어로 측정되는 향상된 기능을 다양한 언어로 시연할 수 있습니다.
- 우리는 예측 가능한 확장을 통해 GPT-4의 손실 및 기능을 정확하게 예측할 수 있는 방법을 강조했습니다.
- GPT-4는 향상된 기능으로 인해 새로운 위험을 제시하며 안전성과 정렬을 이해하고 개선하기 위해 취한 몇 가지 방법과 결과에 대해 논의했습니다.
- 아직 해야 할 일이 많이 남아 있지만 GPT-4는 광범위하게 유용하고 안전하게 배포된 AI 시스템을 향한 중요한 단계를 나타냅니다.
Reference
2 GPT-4 Observed Safety Challenges
- GPT-4는 GPT-2 및 GPT-3와 같은 이전 모델에 비해 추론, 지식 보유 및 코딩과 같은 영역에서 향상된 성능을 보여줍니다.
- 러한 개선 사항 중 다수는 새로운 안전 문제를 제시하며 이 섹션에서 강조합니다.
- 우리는 GPT-4에 대한 다양한 정성적 및 정량적 평가를 수행했습니다.
- 이러한 평가는 GPT-4의 기능, 한계 및 위험을 이해하는 데 도움이 되었습니다.
- 완화 노력의 우선순위를 정합니다.
- 더 안전한 버전의 모델을 반복적으로 테스트하고 구축합니다.
- 조사한 specific risks 중 일부는 다음과 같습니다.
- 환각 (Hallucinations)
- 유해 콘텐츠 (Harmful content)
- 대표성, 할당 및 서비스 품질의 피해 (Harms of representation, allocation, and quality of service)
- 허위 정보 및 영향력 행사 (Disinformation and influence operations)
- 재래식 및 비재래식 무기의 확산 (Proliferation of conventional and unconventional weapons)
- 은둔 (Privacy)
- 사이버 보안 (Cybersecurity)
- 위험한 응급 행동의 가능성 (Potential for risky emergent behaviors)
- 다른 시스템과의 상호 작용 (Interactions with other systems)
- 경제적 영향 (Economic impacts)
- 가속 (Acceleration)
- 지나친 의존 (Overreliance)
- 우리는 GPT-4-early 및 GPT-4-launch가 편향되고 신뢰할 수 없는 콘텐츠 생성과 같은 이전 언어 모델과 동일한 많은 제한 사항을 보인다는 것을 발견했습니다.
- 완화 조치를 취하기 전에 GPT-4-early는 불법 상품이나 서비스를 판매하는 웹사이트를 찾고 공격을 계획하는 것과 같은 영역에서 위험이 증가했음을 발견했습니다.
- 또한 모델의 일관성이 향상되어 더욱 믿을 수 있고 설득력 있는 콘텐츠를 생성할 수 있습니다.
- 아래에서 평가 절차 및 결과를 자세히 설명합니다.
댓글
댓글 쓰기