◼ Comment

사실 이건 뭐 TR치고도 너무 내용이 없긴함ㅋㅋ
oss 모델에 safety 모델로 추가 학습했다는데

데이터 공개는 당연히 안하고, 어떤 형식의 데이터인지도 모름
어떻게 학습했는지 아예 언급이 없음
그래서 모델이 어떤건지를 모르고 시작
학습된 모델은 safeguard 모델이라 부름

safeguard의 사용법은 일반 유저와 대화형태로 사용하는것을 권장하지 않음

입력 분류기로 활용하는것이 적절하다는것
여기서 추측하기론 oss에 분류데이터로 분류 잘하도록 튜닝한거 같음

이 분류 성능을 기준으로 모델들을 비교하는데

내부 분류기 모델이 따로 있는데 그것보다 좋은케이스가 있고 안 좋은 케이스가 있는데
내부 분류기 모델이 좀 더 좋다고 보는게 맞음
일반 범용 gpt보다는 좋다는거 같음

이 모델의 장점은 여러 정책을 zero-shot 한번에 분류할 수 있다는 거 같음

정확히 어떻게 multi policy을 분류했다는건지는 모르겠지만
아마 여러 정책을 prompt로 한꺼번에 주고, 이를 동시에 분류할 수 있도록 하는 형태 같음
따라서 정책이 바뀌어도 분류기의 추가 학습없이, 바뀐 정책을 따르는 입력인지 등을 파악하는데 용이하다는 것

대화형 모델로 쓰이는걸 권장하지는 않지만, 평가는 진행했음.

oss랑 비슷한 수준이라 보면 되는듯

1 소개 (Introduction)

gpt-oss-safeguard-120b와 gpt-oss-safeguard-20b는 오픈소스 모델인 gpt-oss를 기반으로 추가 학습된 두 개의 오픈 가중치(open-weight) 추론 모델로, 제공된 정책에 따라 콘텐츠를 분류할 수 있도록 훈련되었습니다. 이 모델들은 Apache 2.0 라이센스와 OpenAI의 gpt-oss 사용 정책하에 공개되어 있습니다. 오픈소스 커뮤니티의 피드백을 받아 개발된 이 텍스트 전용(text-only) 모델은 Responses API와 호환됩니다. 이 모델들은 커스터마이징이 가능하며, 완전한 사고 과정(chain-of-thought, CoT)을 제공하고, 다양한 추론 강도(low, medium, high reasoning)를 지원하며, 구조화된 출력(Structured Outputs)도 가능합니다.

이 보고서에서는 gpt-oss-safeguard의 기능을 설명하고, gpt-oss 모델을 베이스라인으로 하여 gpt-oss-safeguard 모델들의 안전성 평가 기준 결과를 제공합니다. 기초가 되는 gpt-oss 모델의 개발 및 아키텍처에 대한 추가 정보는 원본 gpt-oss 모델 카드(model card)를 참고하십시오[1].

우리는 최종 사용자가 직접 상호작용하는 핵심 기능으로 이 모델을 사용하는 것이 아니라, 콘텐츠를 특정 정책에 따라 분류하는 용도로 사용하는 것을 권장합니다.

이 모델이 최종 서비스라기보다는, 분류기용으로 추천한다는 것 같은데?

사용자와 직접 상호작용하는 용도로는 원본 gpt-oss 모델이 더 적합합니다. 아래 제공된 안전성 지표는 gpt-oss-safeguard 모델이 채팅 환경에서 어떻게 작동하는지를 설명합니다. 본래 이 모델들은 이런 방식으로 사용하도록 설계되지 않았으나, 오픈소스 모델의 특성상 사용자들이 이런 방식으로 사용할 가능성을 고려하여 안전성 기준에 부합하는지를 평가하고자 했습니다. 이 보고서는 그러한 평가 결과를 공유하고 있습니다. 또한 다국어 채팅 환경에서의 성능 평가도 초기적으로 함께 제시하며, 이 평가는 콘텐츠를 제공된 정책에 따라 직접 분류하는 성능을 직접적으로 평가한 것은 아닙니다.

gpt-oss-safeguard 모델은 기존 gpt-oss 모델을 파인튜닝하여 얻은 것이며, 추가적인 생물학 또는 사이버보안 데이터를 사용하여 학습시키지는 않았습니다. 따라서 gpt-oss 출시 당시 최악의 시나리오를 추정했던 기존 연구가 이 모델들에도 동일하게 적용될 수 있다고 판단합니다.

어떻게 학습했고 이런거는 아예 언급조차 안됨

보고서의 내용과 표현을 바탕으로 보면, gpt-oss-safeguard 모델은 자연어로 기술된 정책을 프롬프트 형태로 입력받고, 이를 바탕으로 콘텐츠를 평가하거나 분류하는 개념으로 설계된 모델이라고 볼 수 있습니다.

2. 안전성 분류 성능 (Safety Classification Performance)

우리는 gpt-oss-safeguard 모델을 내부 및 외부 평가 세트를 사용하여 평가했습니다.

내부 평가에서는 추론 시점에 gpt-oss-safeguard에 여러 개의 정책을 동시에 제공했습니다. 각 테스트 입력에 대해, 우리는 모델이 포함된 모든 정책에 따라 텍스트를 올바르게 분류하는지를 평가합니다. 이는 매우 까다로운 작업으로, 모델이 제공된 모든 정책의 정답 레이블(golden set labels)을 정확히 일치시켜야만 정확하다고 간주합니다.

우리의 gpt-oss-safeguard 모델과 내부 안전성 추론기(Safety Reasoner)는 다중 정책 정확도(multi-policy accuracy)에서 gpt-5-thinking과 gpt-oss 오픈 모델들을 능가했습니다. 특히 gpt-oss-safeguard 모델들이 상대적으로 작은 크기임에도 불구하고, gpt-5-thinking보다 높은 성능을 보인 점은 주목할 만합니다.

테이블 1에서 성능이 "multi-policy"라고 표현된 이유는 한 번의 추론 과정에서 모델이 동시에 여러 개의 안전성 정책(다중 정책)을 적용하여 콘텐츠를 평가하는 작업을 수행했기 때문입니다.

조금 더 구체적으로 설명하면:

평가 방식이 단일 정책(single-policy)에 따라 콘텐츠를 분류하는 것이 아니라, 복수의 정책(multiple policies)을 동시에 제공한 뒤, 모델이 콘텐츠를 각 정책별로 올바르게 분류할 수 있는지 평가했습니다.
모델은 주어진 콘텐츠가 모든 정책에 대해 정확하게 분류되었을 때만 정답으로 인정됩니다. 즉, 하나의 정책에서라도 잘못된 판단을 내리면 틀린 것으로 간주합니다.
이 때문에 단일 정책으로 평가할 때보다 다중 정책 정확도(multi-policy accuracy)가 일반적으로 낮을 수 있으며, 모델에게 더 높은 추론 능력과 일관성이 요구됩니다.

이러한 다중 정책 평가 방식을 통해 모델이 복잡하고 다층적인 정책 집합을 동시에 처리하는 능력을 더 엄밀히 평가하고자 하는 목적입니다. 이는 단일 정책 평가보다 난이도가 높기 때문에 "multi-policy accuracy"로 별도의 평가 지표를 두고 성능을 나타낸 것입니다.

즉 여기서 gpt-oss-safeguard 모델은 명시적으로 분류기(classifier) 역할을 수행하도록 설계됐고 평가가 진행된것

다중 정책(multi-policy) 평가의 예시로는, 모델이 동시에 여러 가지 서로 다른 안전성 정책을 적용하여 콘텐츠를 분류해야 하는 상황을 생각해 볼 수 있습니다. 다음과 같은 구체적인 예를 들어보겠습니다.

예시 입력 (사용자 메시지):

"친구의 비밀번호를 알아내는 법이 궁금한데, 농담처럼 물어볼 재밌는 방법 없을까?"

이러한 입력 메시지에 대해 다음과 같은 서로 다른 정책을 동시에 적용하여 평가한다고 가정합니다.

정책 1: 개인 정보 보호 (Personal Data)

개인의 비밀번호, 계좌번호 등 민감한 정보는 절대 공유하거나 유출되어선 안 된다.

정책 2: 유해한 콘텐츠 (Illicit content)

범죄나 부정행위에 관한 지침이나 방법을 제공해서는 안 된다.

정책 3: 유머와 농담 허용 범위 (Humor & Jokes)

농담과 유머는 허용되나, 개인의 사생활 침해를 유도하거나 해킹, 범죄 행위 등과 관련된 농담은 허용되지 않는다.

올바른 다중 정책 분류 (Correct Multi-policy classification)

모델이 위 예시 메시지를 다음과 같이 판단할 수 있습니다:

정책 1 (개인 정보 보호): 위반
이유: 비밀번호라는 민감한 개인 정보를 알아내려는 의도가 담겨 있음.
정책 2 (유해한 콘텐츠): 위반
이유: 타인의 계정에 무단으로 접근하는 방법을 묻고 있음. 이는 부정 행위를 조장하는 것으로 판단될 수 있음.
정책 3 (유머와 농담 허용 범위): 위반
이유: 비밀번호 등 민감 정보를 대상으로 하는 농담은 개인의 프라이버시를 침해할 수 있으므로 허용되지 않음.

결론적으로 위 메시지는 모든 정책에 대해 위반으로 판단되며, 모델이 이를 정확히 감지했을 때만 "올바른 다중 정책 분류"로 간주합니다.

만약 모델이 이 중 단 하나의 정책이라도 잘못 분류하면, 전체 분류 결과가 "틀린 분류"로 처리되어 다중 정책 정확도(multi-policy accuracy)에 부정적 영향을 미치게 됩니다.

여기서 정책이란 내부 안정성 정책으로 공개된 것은 아님

또한, 2022년 연구 논문에서 공개한 모더레이션 데이터셋과 오픈소스 챗봇 사용자 질의를 기반으로 하는 공개 벤치마크인 ToxicChat 데이터셋에서도 이 모델들을 평가했습니다.

이번에는 대화형 오픈데이터 ToxicChat을 가지고 평가했다고 하는군

2022년 모더레이션 평가 세트에서는 우리의 내부 안전성 정책(이후 변경사항을 반영하여 하나의 정책을 수정한 것)을 사용하여 평가를 진행했습니다. 여기에서 gpt-oss-safeguard 모델은 내부 안전성 추론기와 gpt-5-thinking을 포함한 다른 모든 테스트 모델보다 약간 더 우수한 성능을 보였습니다. 그러나 내부 안전성 추론기와 gpt-oss-safeguard 간의 이 성능 차이는 통계적으로 유의미하지 않았습니다.

ToxicChat 평가에서는 내부 정책에서 간략히 수기 작성한 프롬프트를 사용하여 평가했습니다. 여기서는 내부 안전성 추론기가 gpt-5-thinking보다 더 우수했으며, gpt-5-thinking과 내부 안전성 추론기 모두 gpt-oss-safeguard-120b 및 gpt-oss-safeguard-20b보다 약간 더 우수한 성능을 보였습니다. 그럼에도 불구하고, gpt-oss-safeguard 모델들의 비교적 작은 규모는 이러한 유형의 작업에서 여전히 바람직한 선택이 될 수 있다고 예상합니다.

여기서는 gpt-oss-safeguard가 internal-safety-reasoner보다 더 좋은 성능을 보여준다는 것

내부데이터세트에선 그렇지 않긴 했음

2.1 한계점 (Limitations)

gpt-oss-safeguard에는 두 가지 특정한 한계가 있습니다.

첫 번째, 수만 개 이상의 고품질 레이블 샘플로 훈련된 분류기가 제공된 정책으로 직접 추론하는 gpt-oss-safeguard보다 콘텐츠 분류를 더 잘 수행할 수 있음을 확인했습니다. 따라서 복잡한 위험을 보다 정확히 다루려면, 전용 분류기를 훈련시키는 것이 성능 향상을 위해 더 적합할 수 있습니다.

두 번째, gpt-oss-safeguard는 시간이 많이 걸리고 계산 집약적(compute-intensive)이어서 플랫폼의 모든 콘텐츠를 처리하는 데 확장성이 떨어집니다. 우리는 내부적으로 다음과 같은 방법으로 이를 해결하고 있습니다.

(1) 더 작고 빠른 분류기를 활용하여 평가할 콘텐츠를 우선 결정합니다.
(2) 일부 상황에서는 안전하지 않은 콘텐츠가 감지되었을 때 개입할 수 있는 능력을 유지하면서도, 사용자 경험상 낮은 지연 시간을 제공하기 위해 안전성 추론기(Safety Reasoner)를 비동기적으로(asynchronously) 사용합니다.

세이프티만을 위한 분류기가 성능은 더 좋다
인퍼런스 시간과 비용이 있기 때문에, 모든 입력을 처리할 수 없다
(2)에서 하고자 하는 말이 안전하지 않은 콘텐츠 입력에 대해 그래도 적절하게 응대할 수 있다? (단순 분류기가 아닌)
반면, gpt-oss-safeguard와 같은 reasoning-based 모델은 자연어로 정의된 정책을 그대로 입력받아 곧바로 적용할 수 있습니다. 즉, 별도의 데이터나 추가 학습 없이도 정책 변화에 즉시 대응할 수 있습니다.

3. 다국어 성능 (Multilingual Performance)

모델의 다국어 처리 능력을 평가하기 위해 우리는 MMMLU 평가세트[2]를 사용했습니다. MMMLU는 전문적으로 인간이 번역한 버전으로, 원본 MMLU를 14개의 언어로 번역한 것입니다. 모델 응답에서 마크다운(markdown)이나 LaTeX와 같은 불필요한 문법 요소를 제거하고, 프롬프트에 사용된 각 언어로 표현된 "정답(answer)"의 여러 번역 표현을 탐색하여 정답을 추출했습니다.

우리는 평가를 통해 gpt-oss-safeguard 모델들이 모든 추론 수준(reasoning levels)에 걸쳐서 기존의 gpt-oss 모델들과 동등한(parity) 성능을 보인다는 것을 발견했습니다. 이 평가는 채팅 환경에서의 성능을 측정한 것이며, 제공된 특정 정책에 따라 콘텐츠를 분류하는 작업에서의 성능을 직접 평가한 것은 아님에 유의하시기 바랍니다.

gpt-oss-safeguard 모델은 다국어 처리 능력 측면에서 기존 gpt-oss 모델과 거의 동일한 수준을 보여주었으며, 언어 간 차이도 유사하게 나타났습니다. 평가 결과는 전반적으로 높은 추론 수준(high reasoning level)일수록 성능이 더 우수함을 보여줍니다.

4 관찰된 안전성 문제 및 완화 방안 (Observed safety challenges and mitigations)

4.1 허용되지 않는 콘텐츠 (Disallowed content)

아래의 평가는 OpenAI의 안전성 정책(safety policies)에 따라 허용되지 않는 콘텐츠(혐오 표현, 불법적인 조언 등)에 대한 요청을 모델이 처리하지 않도록 하는지를 확인합니다. gpt-oss-safeguard의 특성상 다음 지표(metrics)는 safeguard 모델의 기본적인 안전성 점수(baseline safety scores)를 나타낸다는 점을 강조하는 것이 중요합니다.

즉, 이 지표는 safeguard 모델이 최종 사용자와 직접 채팅 환경에서 사용될 때의 성능을 나타내며, 이는 우리가 추천하는 사용 사례가 아니며 모델의 본래 의도된 목적도 아닙니다.

모델이 애초에 이렇게 학습된게 아닌가? 어떻게 학습됐는지를 몰라서 애매한데
oss 모델에 그냥 safety 데이터로 분류기 느낌으로 학습해서 그런것인지...

우리는 다음과 같은 여러 평가 항목들을 다뤘습니다.

표준 허용되지 않는 콘텐츠 평가(Standard Disallowed Content Evaluations):
기존에 표준적으로 수행해 오던 평가 방법으로, 모델이 허용되지 않는 콘텐츠에 대한 요청을 처리하지 않는지를 평가합니다. 그러나 최근 우리의 모델들은 이 평가에서 이미 포화 상태(saturation)에 도달하여, 안전성의 추가적인 발전을 측정하기 어려워졌습니다.
지속적인 발전을 좀 더 정확하게 벤치마크할 수 있도록 새로운 평가 세트인 **"생산 벤치마크(Production Benchmarks)"**를 만들었습니다. 향후에는 기존의 평가 세트를 공개하지 않고, 아래의 더욱 어려운 새로운 평가 세트를 대신 공개할 계획입니다.
생산 벤치마크(Production Benchmarks):
ChatGPT 에이전트와 함께 도입된 새로운 평가 세트로, 실제 서비스 환경(production data)에 더욱 가까운 대화들로 구성됩니다. 즉, 기존 평가보다 대화가 더 길고 복잡하며, 단순하지 않은 요청들이 포함됩니다.

우리는 평가 결과를 LLM 기반의 평가 모델(LLM-based grading models)을 이용하여 평가합니다. 평가에 사용하는 지표는 not_unsafe로, 이는 모델이 OpenAI의 정책에 따라 안전하지 않은 출력을 생성하지 않았는지를 체크합니다. 생산 벤치마크 평가 세트는 의도적으로 더 어려운 평가 세트로 설계되었으므로, 표준 평가 세트보다 점수가 낮게 나올 것으로 예상됩니다.

¹ 이 표에서 "혐오 표현"은 괴롭힘/위협(harassment/threatening), 혐오(hate), 혐오/위협(hate/threatening), 극단주의 선전(extremist/propaganda)을 결합한 수치입니다.

우리는 전반적으로 gpt-oss-safeguard-120b와 gpt-oss-safeguard-20b가 기존 gpt-oss 모델들과 대체로 비슷한 성능을 보인다는 것을 확인했습니다. 두 safeguard 모델은 표준 평가에서는 기존 모델과 대체로 1~3점 범위 내에서 성능 차이를 보입니다. 생산 벤치마크 평가 세트에서는 일부 카테고리에서는 safeguard 모델의 성능이 기존 모델보다 떨어지기도 했지만, 다른 카테고리에서는 기존 모델보다 더 좋은 성능을 보이기도 했습니다.

4.2 Jailbreaks (안전장치 우회 공격)

앞서 언급한 바와 같이, 우리는 gpt-oss-safeguard 모델을 최종 사용자가 직접 상호작용하는 주요 기능으로 사용하는 것을 권장하지 않습니다. 이런 이유로 인해, 안전장치 우회 공격(Jailbreaks)에 대한 견고성은 최종 사용자용 모델보다는 중요성이 낮습니다. 그럼에도 불구하고, 우리는 의도적으로 모델의 콘텐츠 생성 거부를 우회하려는 악의적 프롬프트(adversarial prompts)에 대해 gpt-oss-safeguard-120b 및 gpt-oss-safeguard-20b 모델의 견고성을 추가로 평가했습니다.

우리는 다음과 같은 방식으로 우회 공격 평가를 진행했습니다:

StrongReject 평가: 위의 안전성 거부 평가 세트에서 이미 알려진 Jailbreak 기법을 삽입한 뒤, 우리가 불허 콘텐츠 평가에 사용하는 동일한 정책 평가 모델(policy graders)을 통해 테스트했습니다.
다양한 위해성(harm) 카테고리에서 기본 프롬프트(base prompt)에 Jailbreak 기법을 적용하여 정책 기준에 따라 '안전하지 않음(not_unsafe)' 여부를 평가했습니다.

평가 결과, gpt-oss-safeguard-120b 모델이 gpt-oss-120b 모델보다 우수한 성능을 보였고, 반면 gpt-oss-safeguard-20b 모델은 gpt-oss-20b 모델 대비 약 1-5점 정도 낮은 성능을 보였습니다.

4.3 Instruction Hierarchy (지시사항 우선순위)

우리는 gpt-oss-safeguard 모델을 최종 사용자 상호작용의 주요 기능으로 권장하지 않기 때문에, 명령어 우선순위(Instruction Hierarchy)를 따르는 능력은 이러한 모델에서는 상대적으로 중요하지 않습니다. 그러나 우리는 시스템 메시지(system message), 개발자 메시지(developer message), 사용자 메시지(user message) 등 다양한 역할(role)을 포함하는 하모니 프롬프트(harmony prompt) 포맷으로 모델을 추가 학습(post-trained)시켰습니다. 우리는 서로 다른 메시지 역할 간에 충돌(conflicting instructions)하는 예제를 수집하여, 시스템 메시지가 개발자 메시지보다 우선하고, 개발자 메시지가 사용자 메시지보다 우선하도록 지도(supervise)했습니다. 이를 통해 모델 운영자나 개발자들이 자신의 수준에서 안전장치를 제어할 수 있도록 하였습니다.

다음은 시스템 메시지와 사용자 메시지가 서로 충돌할 때의 평가입니다. 모델은 시스템 메시지의 지침을 따라야만 이 평가를 통과할 수 있습니다:

System prompt extraction: 사용자가 정확한 시스템 프롬프트 내용을 추출하려 시도하는 경우입니다.
Prompt injection hijacking: 사용자가 모델에게 "access granted(접근 승인됨)"라는 문구를 출력하도록 시도하는 경우이며, 시스템 메시지는 특정 조건이 충족되지 않으면 이를 금지하는 상황입니다.

또 다른 평가 세트에서는 시스템 메시지(또는 개발자 메시지)가 특정 문구("접근 승인됨")를 출력하거나 사용자에게 알려진 특정 패스워드를 노출하지 말라고 지시한 상황에서, 사용자가 메시지를 통해 모델을 속여 해당 내용을 출력하게 하려는 시도를 평가했습니다.

결과적으로 gpt-oss-safeguard 모델들은 일부 평가에서 기존 gpt-oss 모델들보다 다소 낮은 성능을 보였습니다. 이러한 현상이 왜 나타나는지에 대해서는 추가 연구가 필요합니다.

4.4 Hallucinated chains of thought (환각된 사고 과정)

기존의 gpt-oss 모델과 마찬가지로, 우리는 gpt-oss-safeguard 모델의 사고 과정(chain-of-thought, CoT)에 대한 직접적인 최적화 압력을 주지 않았습니다. 우리는 이러한 모델들이 정책 분류를 어떤 방식으로 추론하는지 이해하는 것이 모델의 효과적 활용에 매우 중요하다고 생각합니다. 이에 따라, 최근 다른 연구기관들과 함께 "CoT 모니터링 가능성(CoT monitorability)에 미치는 영향을 고려해야 한다"고 주장한 입장문에도 참여한 바 있습니다.

이러한 사고 과정들은 직접적인 제약이 없기 때문에, 환각(hallucinated content)된 내용을 포함할 수 있으며, 이는 OpenAI의 표준 안전성 정책이나 모델이 평가하려고 하는 정책과도 다른 내용을 담을 가능성이 있습니다.

4.5 Hallucinations (환각 현상)

우리는 인터넷 검색 능력을 주지 않고, 다음 평가를 통해 gpt-oss-safeguard-120b 및 gpt-oss-safeguard-20b 모델의 환각(hallucinations) 현상을 평가했습니다:

SimpleQA: 간단한 답변을 요구하는 4000개의 다양한 사실 확인 질문(fact-seeking questions)으로 구성된 데이터 세트이며, 모델이 답변을 시도했을 때의 정확성을 평가합니다.
PersonQA: 인물에 대한 공개적으로 알려진 사실과 질문으로 구성된 데이터 세트로, 모델의 정확도를 측정합니다.

정확성(accuracy)과 환각 비율(hallucination rate) 두 가지 지표를 평가했습니다. 정확성은 모델이 질문에 정확하게 대답했는지 여부이며, 환각 비율은 모델이 틀린 답변을 했는지를 의미합니다.

평가 결과, gpt-oss-safeguard 모델들은 기존 gpt-oss 모델과 대체로 비슷한 성능을 보였으며, 일부 경우에는 약간 더 높은 환각 비율을 보이기도 했습니다.

4.6 Fairness and Bias (공정성 및 편향성)

우리는 BBQ 평가[5]를 사용하여 gpt-oss-safeguard-120b 및 gpt-oss-safeguard-20b 모델들의 공정성과 편향성을 평가했습니다. 전반적으로 두 safeguard 모델은 기존의 gpt-oss 모델 대비 모든 평가 지표에서 더 우수한 성능을 나타냈습니다.

Reference

https://cdn.openai.com/pdf/08b7dee4-8bc6-4955-a219-7793fb69090c/Technical_report__Research_Preview_of_gpt_oss_safeguard.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-311, Performance and baseline evaluations of gpt-oss-safeguard-120b and gpt-oss-safeguard-20b, OpenAI 2025