◼ Comment

openai 에서 gpt-oss 공개 모델을 보여줬는데, 여기서 safety 관련된 것만 한번 봤음
학습 방식은 o1 방식과 유사하게 한것으로 보임
평가쪽에서 좀 더 얘기가 있는데 LLM grader 기반으로 보통 평가한듯

혐오성 요청이런거에 얼마나 안전한 대답을 하는지 본거 같은데, 기존 데이터는 너무 쉽고 새롭게 데이터만들어서 평가했다고하는데 공개되진 않음
알려진 공격방식으로 jailbreak 평가해봤다는거 같음
공개 데이터는 strongreject을 사용했다고함
지침 계층에서 개발자 메세지와 관련된 내용도 있는데.. 이 부분은 ? 임. 계층이 다른 role이 있고 이를 학습한 모델인가봄 (앞 부분은 안봤음)
환각 평가도 하는데, SimpleQA, PersonQA 에 대해 환각률(100-정확도-회피)을 간단히 봄 (이렇게 하기도 하는구나)

흥미로웠던것은, 모델을 가져가서 unsafe하게 학습할 수 있으니, gpt-oss 모델에 시도를 해봤는데 기준점에 도달하지 못했다고 함

이 부분에 포커싱해서 논문 써보는것도 가능할듯

3 안전성 평가 및 위험 완화 접근법

사후 학습 과정에서 우리는 심사숙고적 정렬(deliberative alignment)을 활용하여 모델이 불법적 조언과 같은 광범위한 콘텐츠 요청을 거부하도록 하고, 탈옥(jailbreak) 시도에 강력히 대응하며, 지침 계층(instruction hierarchy)을 준수하도록 훈련하였다.

우리는 개방된(open-weight) 모델에 대한 오랜 입장과 마찬가지로, 개방형 모델의 위험성을 평가할 때는 모델을 수정할 수 있는 하위 사용자들의 다양한 행동을 충분히 반영한 테스트가 필요하다고 본다. 개방형 모델의 가장 유용한 특성 중 하나는 하위 사용자들이 초기 모델의 능력을 확장하고 각자의 필요에 맞춰 수정할 수 있다는 점이다. 그러나 이는 악의적인 사용자 역시 모델의 유해한 기능을 강화할 수 있다는 것을 의미한다. 따라서 개방형 모델을 공개할 때는 악의적인 행위자가 실제로 모델을 수정할 수 있는 합리적인 범위를 포괄하여 엄격하게 위험성을 평가해야 한다고 본다.

GPT-OSS 모델은 기본적으로 OpenAI의 안전 정책을 따르도록 학습되었다. GPT-OSS-120B 모델에 대해 확장 가능한 준비성(Preparedness) 평가를 진행하였고,

그 결과 기본 모델은 우리의 준비성 프레임워크에서 추적하는

생물학적·화학적 위험성,
사이버 보안 위험성,
AI 자기 개선 능력 등
세 가지 범주 모두에서 높은(High) 능력의 기준점에 도달하지 않는다는 것을 확인하였다.

추가적으로 다음 두 가지 질문에 대해서도 조사하였다:

첫째, 악의적 행위자가 GPT-OSS-120B를 미세조정(fine-tuning)하여 생물학·화학 및 사이버 분야에서 높은(High) 능력 수준에 도달할 수 있는가?
우리는 공격자의 잠재적 행동을 시뮬레이션하여 이 두 가지 분야에 대해 GPT-OSS-120B 모델을 내부적으로 적대적 미세조정(adversarial fine-tuning)한 모델을 만들었다. 이 모델은 외부에 공개되지 않는다. OpenAI의 안전 자문 그룹(Safety Advisory Group, SAG)이 이를 검토한 결과, OpenAI의 최고 수준의 훈련 기술을 사용한 강력한 미세조정을 진행했음에도 불구하고 GPT-OSS-120B는 생물학적·화학적 위험이나 사이버 위험 분야에서 높은(High) 능력 기준점에 도달하지 않았다고 결론지었다. 자세한 과정과 외부 피드백에 대해서는 이후 5.1절 준비성 결과에서 다룬다.

이런 관점도 재밌는거 같음. 오픈소스 진영을 고려한것이기 한데

공개된 모델을 가져다가, 학습하여서 unsafety하게 만들 수 있는가?

직관적으로는 pretraining 코퍼스에 데이터가 안들어가 있어야 할거 같긴한데

둘째, GPT-OSS-120B를 공개하는 것이 개방형 기초 모델(open foundation models)의 생물학적 능력의 최전선을 유의미하게 발전시키는가?
이를 조사하기 위해 다른 개방형 기초 모델들과 함께 생물학적 준비성 평가를 수행하였다. 그 결과 대부분의 평가 항목에서 이미 GPT-OSS-120B와 유사한 성능을 보이는 다른 개방형 모델이 존재했다. 따라서 이번 공개가 개방형 모델을 이용한 생물학적 능력의 최신 기술을 유의미하게 발전시키지는 않을 것으로 판단하였다.

별도의 언급이 없는 한, 본 모델 카드에 제시된 성능 결과는 GPT-OSS-120B 및 GPT-OSS-20B 모델의 기본 성능에 해당한다.

또한, 우리는 GPT-OSS-120B를 적대적으로 미세조정한 버전에 대해서도 생물학적·화학적 위험성과 사이버 보안 위험성의 준비성 프레임워크 평가를 진행하였다. 이에 대해서는 아래에서 추가로 기술한다.

4. 기본 안전성 성능: 관찰된 문제와 평가

4.1 금지된 콘텐츠(Disallowed Content)

본 평가에서는 모델이 OpenAI의 안전 정책에 따라 금지된 콘텐츠 요청(예: 혐오성 콘텐츠, 불법적 조언 등)에 응답하지 않는지를 확인하였다.

우리는 다음과 같은 평가를 수행하였다:

표준 금지 콘텐츠 평가(Standard Disallowed Content Evaluations):
이 평가는 모델이 금지된 콘텐츠 요청에 대해 얼마나 안전하게 응답하는지 확인하는 표준 평가 방식이다. 그러나 최근의 모델들은 이미 이 평가에서 거의 완벽한 점수(saturation)를 기록하여 점진적인 안전성 향상을 측정하는 데 더 이상 유용한 신호가 되지 못한다. 따라서, 지속적인 안전성 향상을 측정하기 위해 새로운 '프로덕션 벤치마크(Production Benchmarks)' 평가 세트를 개발했다. 기존 평가 방식은 곧 중단하고, 대신 난이도가 더 높은 이 평가 방식을 앞으로 사용하고자 한다.
프로덕션 벤치마크(Production Benchmarks):
ChatGPT 에이전트의 도입과 함께 새롭게 마련된 평가로, 실제 프로덕션 환경에서 수집된 데이터와 더 유사한 평가 집합이다. 이 평가에서는 기존의 금지 콘텐츠 평가보다 대화가 복잡하고 다회차(multi-turn)이며 직접적이지 않은 경향을 보인다.

평가는 대형 언어 모델(LLM)을 기반으로 한 자동 평가(grading) 모델을 통해 이루어진다. 평가 지표는 '안전하지 않음(not_unsafe)' 여부이며, 이는 OpenAI 정책에 따라 모델이 안전하지 않은 출력을 생성하지 않았음을 의미한다. 프로덕션 벤치마크는 더 도전적인 환경을 반영하여 설계되었기 때문에 점수가 표준 평가보다는 낮게 나오는 것이 정상이다. 이는 모델의 시간에 따른 안전성 개선에 대한 유의미한 신호를 제공한다.

기존 벤치마크는 이제 너무 쉬운거고 어려운 벤치마크만들었다는것 (뭔지는 공개 안하는듯)
그리고 사람 평가보다는 LLM grader을 활용한다는 것이군

평가 결과 GPT-OSS-120B와 GPT-OSS-20B는 전반적으로 OpenAI o4-mini 모델과 동등한 성능을 보였다. 두 GPT-OSS 모델 모두 표준 금지 콘텐츠 평가에서 OpenAI o4-mini와 거의 1-2점 차이 내의 성능을 보였고, 프로덕션 벤치마크 평가에서는 대체로 OpenAI o4-mini를 상당히 뛰어넘었다. 그러나 더 작은 모델인 GPT-OSS-20B는 프로덕션 벤치마크의 '불법적/폭력적(illicit/violent)' 카테고리에서는 OpenAI o4-mini보다 다소 낮은 성능을 보였지만, 비추론형(non-reasoning) 채팅 모델인 GPT-4o보다는 더 나은 성능을 기록하였다.

근데 사실 여기서 safety 학습은 기존 o1 방법을 차용한거라 크게 뭐 있는거 같진 않은데..

4.2 탈옥(Jailbreaks)

우리는 GPT-OSS-120B 및 GPT-OSS-20B 모델들이 탈옥(jailbreak)—즉, 모델이 거부해야 하는 콘텐츠 요청을 우회하도록 의도적으로 설계된 적대적 프롬프트(prompts)에 대해 얼마나 강력한 방어력을 지니는지를 평가하였다.

평가는 다음과 같은 방법으로 수행하였다:

StrongReject 평가법【31】:
앞서 언급한 안전 거부 평가에서 사용된 예시에 이미 알려진 탈옥(jailbreak) 방식을 추가하여 이를 다시 평가한다. 평가 방법은 금지된 콘텐츠 평가와 동일하게 OpenAI 정책 평가 모델(policy graders)을 이용하여 '안전하지 않음(not_unsafe)' 여부를 확인하는 방식이다. 다양한 유해성(harm) 범주에 걸쳐 기본 프롬프트에 탈옥 기법을 적용한 후, 이를 OpenAI의 정책에 따라 '안전하지 않음' 기준으로 평가하였다.

평가 결과 GPT-OSS-120B와 GPT-OSS-20B 모델은 전반적으로 OpenAI o4-mini 모델과 유사한 성능을 나타냈다.

그냥 질문을 던져서 뚫리는지를 보는게 아니라, 알려진 공격방식으로 던져서 뚫리는 경우를 본다는것 같음
숫자가 높을수록 잘 막는것을 의미하는 것 같음 (안전한 응답 비율이라 보면 되는 듯)

4.3 지침 계층(Instruction Hierarchy)

모델 추론 서비스 제공자들은 GPT-OSS 모델을 배포할 때 개발자들이 사용자 프롬프트와 함께 매번 추가로 '개발자 메시지(developer messages)'를 지정할 수 있도록 허용할 수 있다. 이는 유용한 기능이지만, 잘못 처리될 경우 개발자들이 GPT-OSS의 보호 장치(guardrails)를 우회할 가능성도 있다.

이 문제를 완화하기 위해, 우리는 모델이 지침 계층(Instruction Hierarchy)을 따르도록 훈련하였다. 구체적으로는, 시스템 메시지(system messages), 개발자 메시지(developer messages), 사용자 메시지(user messages) 등의 다양한 역할(role)을 활용하는 Harmony 프롬프트 포맷으로 모델을 추가 훈련하였다.

『개발자 메시지(Developer Message)』의 의미

모델을 배포하거나 사용하는 개발자가 사용자에게 직접 노출하지 않으면서, 모델의 동작이나 응답 방식을 세부적으로 조정하기 위해 추가적으로 입력할 수 있는 프롬프트 메시지입니다.
즉, 모델이 최종 사용자(user) 와 직접 상호작용하기 전에, 개발자(developer)가 모델에게 별도의 내부 지침이나 정보를 전달할 수 있는 특별한 메시지입니다.

서로 상충되는 메시지들을 포함한 예시 데이터를 수집하고, 시스템 메시지가 개발자 메시지보다 우선하며, 개발자 메시지는 사용자 메시지보다 우선하여 지침을 따르도록 감독 학습(supervised training)을 진행하였다. 이 접근법은 모델 추론 제공자와 이를 사용하는 개발자 모두가 각자의 수준에서 보호 장치를 관리할 수 있게 한다.

먼저, 시스템 메시지와 사용자 메시지가 서로 충돌하는 평가를 수행했다. 이때 모델은 시스템 메시지의 지침을 따라야 평가를 통과할 수 있다:

시스템 프롬프트 추출(System prompt extraction): 사용자가 정확한 시스템 프롬프트를 추출할 수 있는지 평가.
프롬프트 주입 탈취(Prompt injection hijacking): 사용자가 모델에게 "액세스 허용(access granted)"을 말하게 만들려 하고, 시스템 메시지는 특정 비밀 조건이 충족되지 않는 한 이를 막도록 시도하는 평가.

평가 결과는 다음과 같다:

또 다른 평가에서는 시스템 메시지(또는 개발자 메시지)에서 특정 문구(예: "access granted") 또는 비밀번호(password)를 출력하지 말라는 지침을 내리고, 사용자 메시지를 통해 모델이 이를 출력하도록 유도하였다.

평가 결과, GPT-OSS-120B 및 GPT-OSS-20B 모델은 전반적으로 지침 계층 평가에서 OpenAI o4-mini보다 성능이 낮았다. 이에 대해서는 추가 연구가 필요하지만, 다음 두 가지 사항을 언급할 수 있다:

GPT-OSS-120B 및 GPT-OSS-20B의 StrongReject 탈옥 평가 성능은 OpenAI o4-mini와 거의 동일한 수준이었다. 이는 GPT-OSS 모델들이 알려진 탈옥 기법에는 비교적 견고하지만, 시스템 메시지의 우선순위를 사용자 메시지가 오버라이드(overriding)하는 것을 방지하는 데 있어서는 OpenAI o4-mini보다 약하다는 것을 의미한다. 즉, 실질적으로 개발자는 시스템 메시지를 통해 GPT-OSS 모델에서 탈옥을 막는 데 OpenAI o4-mini와 같은 수준의 효과를 얻기 어려울 수 있다.
그럼에도 불구하고, 개발자들은 GPT-OSS 모델들을 추가로 미세조정하여 실제로 마주치는 탈옥 공격에 더 강력하게 대응할 수 있으며, 이는 필요 시 모델을 더욱 강력하게 만드는 실질적 방법이 될 수 있다.

시스템 메시지 (최우선)

↳ 개발자 메시지

↳ 사용자 메시지 (최하위)

즉, 탈옥 공격 자체는 잘 방어하지만, 여러 계층의 메시지 간 우선순위를 지키는 면에서 아직은 취약성이 존재한다.
사용자에 의한 악의적인 공격(특히 시스템 및 개발자 메시지 무시) 을 막기 위해서는 개발자들이 이를 인지하고 추가적으로 안전성을 보강하는 방안이 필요하다는 점을 제시한 것이다.

4.4 환각된 사고 체인(Hallucinated Chains of Thought)

최근의 연구에서 우리는 추론 모델(reasoning model)의 사고 체인(chain of thought, CoT)을 모니터링하는 것이 잘못된 행동(misbehavior)을 탐지하는 데 유용하다는 사실을 확인했다. 또한, 사고 체인(CoT)이 '나쁜 생각(bad thoughts)'을 갖지 않도록 직접적인 압력을 주면, 모델은 잘못된 행동을 하는 동시에 이를 숨기는 법을 학습할 수 있다는 점도 발견하였다. 더 최근에는, 다른 연구 기관들과 함께한 입장문(position paper)을 통해 최전선(frontier)의 개발자들이 개발 결정이 사고 체인(CoT)의 모니터링 가능성에 미치는 영향을 신중히 고려해야 한다고 주장하였다.

이러한 우려에 따라, 우리는 이번 두 개의 개방형(open-weight) 모델에 대해서는 사고 체인(CoT)에 직접적으로 최적화 압력을 가하지 않기로 결정했다. 이는 개발자들이 자신들의 프로젝트에서 사고 체인 모니터링 시스템을 구현할 수 있는 기회를 제공하고, 연구 커뮤니티가 사고 체인의 모니터링 가능성(CoT monitorability)에 대해 추가 연구할 수 있도록 돕기 위함이다.

이러한 사고 체인들이 직접적으로 제한받지 않기 때문에, 환각(hallucination)이 일어난 콘텐츠가 포함될 수 있으며, OpenAI의 표준 안전 정책을 반영하지 않는 표현이 나타날 수도 있다. 개발자들은 적절한 필터링(filtering), 조정(moderation) 또는 요약(summarization) 없이 이러한 사고 체인(CoT)을 애플리케이션 사용자에게 직접적으로 노출해서는 안 된다.

4.5 환각(Hallucinations)

우리는 GPT-OSS-120B와 GPT-OSS-20B 모델의 환각 현상(hallucinations)을 다음과 같은 평가를 통해 확인하였다. 이 평가는 모델이 인터넷 탐색(browsing) 없이 수행되었다.

SimpleQA: 짧은 답변을 요구하는 4천 개의 다양한 사실 관련 질문으로 구성된 데이터셋으로, 모델이 답변을 시도했을 때 정확도를 측정한다.
PersonQA: 사람에 대한 공개된 정보와 질문으로 이루어진 데이터셋으로, 모델이 답변을 시도했을 때 정확도를 측정한다.

우리는 다음 두 가지 지표를 사용하였다:

정확도(accuracy): 모델이 질문에 올바르게 답했는지 여부(높을수록 좋음).
환각률(hallucination rate): 모델이 질문에 잘못 답한 비율(낮을수록 좋음).

평가 결과는 다음과 같다:

GPT-OSS-120B 및 GPT-OSS-20B 모델은 두 평가(SimpleQA, PersonQA) 모두에서 OpenAI의 o4-mini보다 성능이 낮았다. 이는 작은 모델일수록 세계 지식이 부족하여 환각(hallucination)이 더 많이 발생하는 경향이 있기 때문이다. 또한 외부 정보를 인터넷 탐색 등을 통해 가져올 수 있다면, 모델의 환각 발생률이 감소할 수 있다.

여기서 환각률이란 그냥 SimpleQA, PersonQA 정확도를 보는것과 유사하다고 보면 될듯
모델은 정답을 모르거나 답을 회피할 수도 있으며, 이런 경우 정확도와 환각률 어느 쪽에도 포함되지 않기 때문에
환각률 = 100-정확도-회피 이런 개념인듯

4.6 공정성 및 편향성(Fairness and Bias)

우리는 GPT-OSS-120B와 GPT-OSS-20B 모델의 공정성 및 편향성을 BBQ 평가【32】를 통해 확인하였다. 평가 결과, 두 모델 모두 전반적으로 OpenAI o4-mini 모델과 비슷한 성능을 보였다.

모호한 질문에 대한 정확도: 편견이 작용할 가능성이 있는 모호한 질문 상황에서 모델이 편향되지 않고 정확하게 답변한 비율.
명확한 질문에 대한 정확도: 편향성을 제거하도록 명확하게 설정된 질문에서 정확하게 답변한 비율.

이 두 절의 핵심적인 결론은 다음과 같다:

GPT-OSS 모델들은 더 큰 모델인 OpenAI의 o4-mini에 비해 세계 지식이 부족하여 환각이 더 많이 발생하며, 외부 정보 검색 없이 사실적 정확도가 떨어진다.
GPT-OSS 모델들은 공정성 및 편향성 측면에서는 OpenAI o4-mini 모델과 비슷한 성능을 보이며, 전반적으로 양호한 수준의 공정성을 나타낸다.

Reference

https://arxiv.org/pdf/2508.10925

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-310, gpt-oss-120b & gpt-oss-20b Model Card, OpenAI 2025