NL-312, ShieldGemma: Generative AI Content Moderation Based on Gemma, Google 2024
초록 (Abstract)
본 논문에서는 Gemma2를 기반으로 구축된 대규모 언어 모델(LLM) 기반 안전 콘텐츠 조정(safety content moderation) 모델의 포괄적인 제품군인 ShieldGemma를 제안한다. ShieldGemma 모델은 사용자 입력과 LLM이 생성한 출력 모두에 대해, 주요 유해 유형(성적으로 노골적인 콘텐츠, 위험한 콘텐츠, 괴롭힘, 혐오 발언)에 걸친 안전 위험을 정밀하고 강건하게 예측한다. 공개 벤치마크와 내부 벤치마크 모두에서의 평가를 통해, ShieldGemma가 기존 모델인 LlamaGuard(공개 벤치마크 기준 AU-PRC +10.8%)와 WildGuard(+4.3%) 대비 우수한 성능을 보임을 입증하였다.
- 또한 본 논문에서는 다양한 안전 관련 과제뿐 아니라 그 외의 영역에도 적용 가능한 새로운 LLM 기반 데이터 큐레이션 파이프라인을 제시한다.
- 주로 합성 데이터(synthetic data)를 활용해 학습된 모델임에도 불구하고, 강한 일반화 성능을 보임을 확인하였다.
- ShieldGemma를 공개함으로써, 본 연구는 LLM 안전성 연구를 진전시키고, 개발자들이 보다 효과적인 콘텐츠 조정 솔루션을 구축할 수 있도록 지원하는 중요한 자원을 제공한다.
1. 서론 (Introduction)
최근 수년간 대규모 언어 모델(LLM)의 광범위한 도입은 대화형 에이전트(Deng et al., 2023; Liu et al., 2024)부터 콘텐츠 생성(Achiam et al., 2023; Anthropic, 2024; Team et al., 2023)에 이르기까지 다양한 분야에 혁신을 가져왔다. 이러한 모델들은 인간과 유사한 텍스트를 이해하고 생성하는 뛰어난 능력을 보여주며, 여러 산업 전반에서 정교한 응용을 가능하게 하고 있다. 그러나 이러한 발전과 함께, LLM의 실제 배포 과정에서는 사용자와의 상호작용이 안전하고 책임감 있게 이루어지도록 보장하는 강력한 메커니즘이 필수적으로 요구된다.
현재 널리 사용되는 접근 방식은 LlamaGuard(Inan et al., 2023), WildGuard(Han et al., 2024), AEGIS(Ghosh et al., 2024) 등과 같은 콘텐츠 조정(content moderation) 솔루션에 의존한다. 이러한 도구들은 LLM의 입력과 출력을 필터링하여 잠재적인 안전 위험을 탐지하도록 설계되었다. 하지만 이들 솔루션에는 몇 가지 한계가 존재한다.
기존 연구는 앞에 필터를 끼우는 느낌인듯
첫째, 일부 기존 솔루션은 유해 유형(harm type)에 대한 세분화된 예측을 제공하지 않거나, 확률 값이 아닌 이진 결과(binary output)만을 제공한다(Han et al., 2024).
- 이는 후속 응용 단계에서 유해 유형별 맞춤 필터링이나 임계값(threshold)을 조정하는 데 제약을 초래한다.
- 예를 들어, LLM-as-a-judge(Huang et al., 2024; Zheng et al., 2024)와 같은 작업에서는 대형 모델이 성능 향상에 유리할 수 있는 반면, 온라인 안전 필터링 환경에서는 지연(latency)과 계산 비용을 줄이기 위해 소형 모델이 더 적합할 수 있다.
- 학습 데이터의 구성은 적대적 프롬프트(adversarial prompts)에 대한 강건성 확보와 정체성 집단(identity groups) 간의 공정성 보장을 위해 매우 중요한 요소이다.
이러한 문제들을 해결하기 위해, 본 논문은 다음과 같은 핵심 기여를 제시한다.
-
Gemma2(Team, 2024a)를 기반으로, 2B부터 27B 파라미터 규모에 이르는 최첨단 콘텐츠 조정 모델 스펙트럼을 제안한다. 이러한 다양한 모델 크기는 서로 다른 응용 요구사항에 맞춰 최적의 성능을 제공할 수 있도록 설계되었다. 제안하는 모델은 주요 유해 유형에 대해 사용자 입력과 모델 출력(사용자 입력을 문맥으로 활용함)을 모두 필터링하는 데 적용 가능하다.
-
고품질의 적대적이며 다양하고 공정한 데이터셋을 생성하기 위한 새로운 방법론을 제시한다. 이 과정은 합성 데이터 생성 기법을 활용하여 인간 주석(annotation)에 대한 부담을 줄이며, 안전 관련 데이터 문제 전반과 그 외 영역에도 폭넓게 적용될 수 있다.
요약하면, 본 논문은 LLM 기반 콘텐츠 안전 조정 분야의 최신 성능을 한 단계 끌어올리는 포괄적인 프레임워크를 제시한다. 기존 솔루션의 한계를 해결하고 데이터 생성에 대한 새로운 방법론을 도입함으로써, 다양한 응용 환경에서 LLM과 사용자 간의 상호작용을 보다 안전하고 신뢰할 수 있도록 만드는 것을 목표로 한다.
2. 관련 연구 (Literature Review)
안전 콘텐츠 조정 (Safety Content Moderation)
콘텐츠 조정(content moderation)에 관한 연구는 주로 온라인 플랫폼에서 생성되는 인간 작성 콘텐츠를 대상으로 폭넓게 수행되어 왔다. 예를 들어, Perspective API(Google, 2017)는 유해하거나 독성(toxic) 언어를 탐지하는 기술 발전에 중요한 역할을 해왔다. 그러나 이러한 기존 자원들은 대부분 웹 환경에서의 인간 생성 텍스트를 대상으로 설계되어 있으며, 이는 인간의 프롬프트와 LLM이 생성한 응답이라는 새로운 유형의 콘텐츠와는 본질적으로 다르다.
최근 연구들은 LLM을 미세조정하여 콘텐츠 조정 성능을 향상시키는 방향에서 상당한 진전을 보여주었다. 대표적으로 Llama-Guard(Inan et al., 2023), Llama-Guard2(Team, 2024b), Aegis(Ghosh et al., 2024), MD-Judge(Li et al., 2024), HarmBench(Mazeika et al., 2024), BeaverDam(Ji et al., 2023), WildGuard(Han et al., 2024) 등이 있다.
이러한 연구들은 LLM 기반 콘텐츠 조정이 기존의 규칙 기반 또는 전통적 분류 방식보다 더 높은 표현력과 범용성을 가질 수 있음을 보여준다.
합성 데이터 생성 (Synthetic Data Generation)
강건한 안전 모델을 개발하기 위해서는 고품질 데이터가 필수적이다. 인간–컴퓨터 상호작용 데이터가 풍부하게 존재함에도 불구하고, 이를 직접 활용하는 데에는 여러 어려움이 따른다. 대표적으로 (i) 유해 사례에 해당하는 양성(positive) 예시의 희소성, (ii) 적대적이면서도 매우 다양한 데이터의 부족, (iii) 개인정보 및 프라이버시 이슈 등이 있다(Kurakin et al., 2023).
사전학습 과정에서 방대한 지식을 흡수한 LLM은 지식 표현과 언어 이해 측면에서 뛰어난 역량을 보여주었으며(Kim et al., 2022; Nasr et al., 2023), 적절한 지침(instruction)을 제공할 경우 인간의 요구에 부합하는 고품질 합성 데이터를 생성할 수 있음이 입증되었다(Gao et al., 2022; Long et al., 2024; Sahu et al., 2022). 안전 분야에서 이는 길이, 목표 유해 유형, 민감 주제 등 다양한 차원에 걸친 데이터 생성뿐 아니라, LLM으로부터 유해한 응답을 유도할 가능성이 높은 고난도 적대적 프롬프트를 생성하는 것으로 이어진다.
- safety하게 모델을 만들 학습 데이터를 합성으로 생성한다는거 같음
- 이렇게 할 수 있는 이유는 모델이 지침을 잘 따르기 때문에, 지침을 잘 줘서 한다는 느낌임
3. 안전 정책 (Safety Policy)
안전 정책(safety policy)은 실제 환경에 배포되는 AI 시스템을 개발하는 데 있어 핵심적인 구성 요소이다. 이러한 정책은 사용자 입력과 모델이 생성한 출력 모두에 대해 허용 가능한 콘텐츠와 허용되지 않는 콘텐츠를 명확히 구분하는 정교하게 정의된 지침들로 구성된다.
첫째, 안전 정책은 인간 주석자(human annotator)들에게 공통의 기준 프레임워크를 제공함으로써, 잠재적으로 유해한 콘텐츠를 라벨링하고 분류하는 과정에서의 일관성을 보장하고 주관성을 줄여준다.
- 이러한 정렬은 효과적인 안전 분류기를 학습시키고, 데이터에 내재될 수 있는 의도치 않은 편향을 완화하기 위한 필수 조건이다.
- 안전 정책은 별도의 학습 없이 바로 사용할 수 있는(zero-shot) 혹은 소량의 예시만으로 동작하는(few-shot) 분류기를 구축하는 데에도 유용한 기반을 제공한다.
사용자 입력과 모델 출력 모두에 대해 금지되는 콘텐츠의 범주는 대체로 유사하지만, 두 경우에서 강조점은 다르게 설정된다.
- 사용자 입력의 경우, 직접적으로 유해한 콘텐츠를 포함하거나 LLM으로부터 그러한 콘텐츠를 생성하도록 유도하는 요청을 금지하는 데 중점을 둔다.
- 여기에는 그 자체로는 명백히 유해하지 않더라도, LLM을 조작하여 유해한 응답을 생성하도록 의도적으로 설계된 입력도 포함된다.
반면, 모델 출력의 경우에는 어떠한 형태로든 유해한 콘텐츠가 생성되는 것을 방지하는 것이 주된 목표이며, 이때 사용자 입력은 오직 문맥(context)으로만 활용된다.
- 부적절한 입력과 출력의 기준이 조금은 다르다는 것
- 입력은 유해한 콘텐츠를 유도하는 설계된것도 부적절한것이고, 출력은 유해한 콘텐츠가 생성된 것 자체를 의미하는 느낌
- 여기서는 학습데이터를 사전에 정의된 안전 정책에 맞게 다양하게 합성되어서 (LLM 통해) shieldgemma을 학습한다는 것이고
- 일반적인 LLM에 zero-shot/few-shot으로만 안전 정책을 주면, 분류기로 동작할 수 있다는 것
3.1 콘텐츠 안전 분류 체계 (Content Safety Taxonomy)
본 논문에서는 ShieldGemma의 콘텐츠 안전 분류 체계(content safety taxonomy)를 여섯 가지 유해 유형(harm type)에 대해 상세히 정의한다. 이 정의는 Google의 Responsible Generative AI Toolkit(Google, 2024)에서 추가적으로 정교화되어 있다.
-
성적으로 노골적인 정보 (Sexually Explicit Information)
성행위 또는 기타 음란한 내용에 대한 언급을 포함하는 콘텐츠를 의미한다(예: 성적으로 노골적인 묘사, 성적 흥분을 유도하기 위한 콘텐츠). 단, 인간 해부학이나 성교육과 관련된 의학적·과학적 용어는 허용된다. -
혐오 발언 (Hate Speech)
정체성(identity) 또는 보호 대상 속성(protected attributes)을 겨냥한 콘텐츠를 의미하며, 여기에는 인종적 비하 표현, 차별 조장, 보호 대상 집단에 대한 폭력 선동 등이 포함된다. 보호 대상 속성에는 인종, 민족, 종교, 장애, 연령, 국적, 군 복무 여부, 성적 지향, 성별, 성 정체성, 카스트, 기타 보호 대상 지위가 포함된다. 단, 보호 대상 개인이나 집단을 긍정적으로 언급하는 콘텐츠는 허용된다. -
위험한 콘텐츠 (Dangerous Content)
자신 또는 타인에게 해를 가하는 콘텐츠를 의미한다. 예를 들어, 총기나 폭발물의 획득·제작 방법, 테러 행위의 조장, 자살에 대한 지침 등이 이에 해당한다. -
괴롭힘 (Harassment)
특정 개인을 대상으로 악의적이거나 위협적이며, 괴롭히거나 모욕하는 콘텐츠를 의미한다. 예를 들어, 신체적 위협, 비극적 사건의 부정, 폭력 피해자에 대한 비하 등이 포함된다. -
폭력 (Violence)
충격적이거나 선정적이며 과도한 폭력을 묘사하는 콘텐츠를 의미한다. 예를 들어, 역사적·교육적 맥락 없이 극심한 부상이나 사망에 이르는 폭력 행위나 사건을 묘사하는 경우, 의학적·과학적 맥락 없이 노출된 장기나 뼈를 보여주는 경우, 폭력적 죽음의 식별 가능한 피해자, 일반적인 사냥·식품 가공·문화적 관행을 벗어난 동물 학대 또는 살해 등이 포함된다. -
외설 및 욕설 (Obscenity and Profanity)
저속하거나 상스러운 언어, 부적절한 표현을 포함하는 콘텐츠를 의미한다. 예를 들어, 욕설, 외설적 표현, 기타 부적절한 언어 사용이 이에 해당한다.
사용자 입력(user input)과 모델 출력(model output) 상황에는 서로 다른 지침이 적용된다.
- (i) 사용자 입력은 앞서 정의한 정책을 위반하는 콘텐츠를 포함하거나 그러한 콘텐츠의 생성을 요청해서는 안 된다.
- (ii) 챗봇은 앞서 정의한 정책을 위반하는 콘텐츠를 생성해서는 안 된다.
Reference




댓글
댓글 쓰기