NL-313, ShieldGemma 2: Robust and Tractable Image Content Moderation, Google 2025
◼ Comment
- ShieldGemma에 의해 구글의 후속작인데, 이미지가 정책을 위반하는지 안하는지 판단하는 모델을 만들었다는 것
- 유사한 연구로 Llavaguard, Unsafebench 모델등이 있는거 같음
- 물론 일반 api로 공개되는 멀티모달 LLM도 비교방법으로 들어감
- 이 논문은 버전1과 같이 합성 데이터를 만들어서, 이를 llm fine-tuning했다는 것
- 결국 핵심은 어떻게 합성 데이터를 만드냐?
- 데이터
- 1) 이미지 생성
- 문제 정의(Problem Definition)
- 분류체계 생성(Taxonomy Generation)
- 이미지 쿼리 생성(Image Query Generation)
- 예를 들어 위험한 콘텐츠 정책의 경우, (주제=테러리즘, 하위 주제=무기 및 탄약, 맥락=소셜 미디어, 지역=아프리카, 이미지 스타일=점묘화(Pointillism))라는 조건에서 다음과 같은 프롬프트가 생성될 수 있다:
- "마라케시의 북적이는 시장에서 AK-47을 발사하는 남자의 모습을 점묘화 스타일로 그린 그림. 시장 좌판이 뒤집히고 사람들이 공포에 질려 흩어지는 모습."
- 이미지 생성(Image Generation)
- 우리는 다양한 화면 비율(aspect ratio)과 해상도(resolution)를 가진 이미지를 정책당 약 10,000장씩 생성하기 위해 Imagen 모델(Saharia et al., 2022)을 사용하였다.
- 데이터 생성 과정은 반복적(iterative)으로 이루어지며, 평가 결과를 바탕으로 모델의 매개변수(parameter) 조정, 분류체계의 정교화(refinement), 추가적인 소수 예제의 포함 등을 수행하여 점진적으로 개선하였다.
- 이렇게 위험한 이미지를 만들어 놓고, 주어진 정책에 따른 레이블링을 자동으로 한다.
- 데이터의 종류는 아래의 2가지가 있다.
- 2) 이진 분류 데이터는 (이미지, 정책, Yes/No) 형식으로 구성된건데, 정책을 위반했는지 yes/no 레이블링은 앞서 말했듯
- 사람이 일일이 수작업으로 레이블링하지 않고 Gemini 2 Flash 모델이 정책 정의와 소수 예제(few-shot examples)를 기반으로 자동으로 라벨을 매긴 것임
- 그만큼 gemini 2 flash가 좋나?
- 3) 이유가 있는 데이터는 (이미지, 정책, Yes/No, 이유) 형식인데
- "이유(rationale)" 는 원래 Gemini 2 Flash의 라벨링 과정에서 Tree-of-Thoughts(ToT) 방식을 사용하여 세부적으로 도출한 복잡한 이유(detailed rationale)입니다.
- 복잡한 ToT 기반 이유를 그대로 쓰지 않고, 별도의 LLM을 활용하여 간략화한 이유(simplified rationale) 를 최종적으로 데이터에 포함시켰다고 언급하고 있습니다.
- 두 데이터의 비율은 50:50이며, 이렇게 한 이유는 안나와있는거 같은데 아마 모델의 균형을 맞추려고 한거 같음 (성능과 추론의 균형?)
- 이렇게 만들어진 데이터를 가지고 SFT 학습한다!
- 프롬프트는 그림2 참고
Abstracat
본 논문은 Gemma 3를 기반으로 한 40억 파라미터의 이미지 콘텐츠 조정 모델인 ShieldGemma 2를 소개한다. 본 모델은 합성 이미지(예: 이미지 생성 모델의 출력물)와 실제 이미지(예: 시각-언어 모델의 입력 이미지)에 대하여, 성적으로 노골적인 콘텐츠(Sexually Explicit), 폭력 및 잔혹성(Violence & Gore), 위험한 콘텐츠(Dangerous Content)와 같은 주요 유해 카테고리에서 강력한 안전 위험 예측 성능을 제공한다. 내부 및 외부 벤치마크 평가를 통해, LlavaGuard, GPT-4o mini, 기본 Gemma 3 모델과 비교하여 우리의 정책 기준에서 최첨단(state-of-the-art) 성능을 입증하였다. 추가로 우리는 통제 가능하며, 다양하고, 강력한 이미지 생성을 가능케 하는 새로운 적대적(adversarial) 데이터 생성 파이프라인을 제시한다. ShieldGemma 2는 멀티모달 안전성 및 책임감 있는 AI 개발을 촉진하기 위한 오픈 이미지 조정 도구로 제공된다.
1. 서론 (Introduction)
시각-언어 모델(Vision-Language Models, VLM)은 최근 급속한 발전을 이루었으며, 시각적 콘텐츠의 이해 및 생성에 있어 놀라운 능력을 보여주고 있다. 이러한 모델들은 이미지 캡션 생성, 시각적 질의응답(Visual Question Answering, VQA), 시각적 대화(Visual Dialogue), 이미지 편집, 이미지 생성 등 다양한 기능을 제공한다. 구체적인 발전 사례는 다음과 같다:
(i) Gemini(Gemini Team et al., 2023) 및 GPT-4o(Achiam et al., 2023)와 같은 대화 모델들은 이미지와 텍스트 간 긴 맥락(long-context)에 대한 강력한 이해력을 보이며, 복잡한 시각적 장면을 분석하고 긴 시각적 및 텍스트 정보를 기반으로 추론이 필요한 미묘한 질문에 답할 수 있다.
(ii) Stable Diffusion(Rombach et al., 2022), Imagen(Saharia et al., 2022), MidJourney, DALL-E(Ramesh et al., 2021)와 같은 이미지 생성 모델들은 텍스트 프롬프트를 통해 매우 현실적이고 다양한 시각적 콘텐츠를 생성할 수 있게 함으로써, 사용자들이 전례 없는 사실성(fidelity)과 창의적 제어력을 갖춘 이미지를 만들 수 있도록 접근성과 사용 편의성을 크게 향상시켰다.
이러한 VLM의 보급과 능력이 증가하면서, 입력 및 출력 이미지 모두에 대해 견고한 안전장치(safeguard)를 구축하는 것이 점점 더 중요해지고 있다.
- 이미지 입력(합성 이미지나 실제 이미지)을 받아들이는 VLM에 대해서는 유해한 콘텐츠가 나타나지 않도록 예방하는 장치를 구축하는 것이 필수적이다.
- 또한 이미지 생성 모델의 경우에도 안전 정책 준수를 확인하여 유해하거나 부적절한 콘텐츠가 생성되는 것을 방지하는 것이 매우 중요하다.
- 이러한 양방향의 과제는 자연 이미지와 합성 이미지 모두를 다룰 수 있는 매우 효과적인 이미지 안전 분류기의 필요성을 강조한다.
최근 트랜스포머 기반 구조(transformer-based architectures)의 등장과 함께 이미지 분류 분야는 상당한 변화를 겪었다. 예를 들어 Vision Transformer(ViT; Dosovitskiy et al., 2020)는 이미지를 중첩되지 않는 패치로 나누고 이를 시퀀스로 변환하여 표준 트랜스포머 인코더로 처리한다. Swin Transformer(Liu et al., 2021)는 계층적 구조와 Shifted window 메커니즘을 도입하여 지역성을 유지하면서 효율성과 확장성을 높였다. Gemini, GPT-4o, Llava와 같은 VLM들은 전통적인 이미지 분류를 넘어 보다 포괄적인 이미지 이해 작업을 위한 강력한 도구로 자리잡았으며, 시각적 및 텍스트적 양쪽 모달리티(modalities)를 처리하고 추론할 수 있는 능력을 활용하고 있다.
그러나 이와 같은 모델들을 이미지 안전 분류와 같은 특수 분야에 직접 적용할 때는 몇 가지 한계가 있다. 예를 들어, 오픈소스로 공개되지 않았거나, 규모가 지나치게 크고 안전과 같은 특수 분야에 적용하기에는 비용이 너무 많이 들거나, 안전성을 위해 특별히 설계되지 않았다는 점 등이 있다. 이러한 성능 격차를 줄이기 위해 최근 연구에서는 VLM을 이미지 안전 분류 작업을 위해 세부적으로 파인튜닝하는 방법을 제안해왔다. LlavaGuard(Helff et al., 2024), PerspectiveVision(Qu et al., 2024)과 같은 사례가 있으며, 이는 주목할 만한 성능 향상을 이루었다.
하지만 이러한 발전에도 불구하고 여전히 다음과 같은 중요한 한계가 존재한다:
(i) 합성 데이터 생성의 병목: 기존 모델들은 자동화되고 목표 지향적인 훈련 데이터를 생성하는 방법이 부족하다. 이상적으로는 특정 정책이나 주제, 애플리케이션과 관련하여 안전성의 경계를 명확히 탐색할 수 있는 합성 이미지를 생성할 수 있어야 한다. 현재 접근법들은 일반적인 목적의 데이터셋에 의존하여 다양한 적대적(adversarial) 상황을 충분히 포괄하지 못하는 경우가 많다.
(ii) 임계치(threshold) 맞춤화 부족: 기존 일부 안전 분류기는 맞춤화 가능한 임계치 없이 단순히 이진 분류(안전/불안전)만 제공한다. 각기 다른 애플리케이션은 각기 다른 위험 허용도를 가지고 있으며, 분류 임계치를 조정할 수 있는 능력은 정밀도(precision)와 재현율(recall)을 균형 있게 유지하는 데 필수적이다.
이러한 한계를 극복하기 위해 우리는 Gemma 3 4B 모델(Gemma Team, 2025)을 기반으로 미세 조정한 견고한 이미지 안전 분류기 **ShieldGemma 2 (SG2)**를 제안한다. SG2는 다음과 같은 주요 장점을 제공한다:
정책 인지 분류(Policy-Aware Classification): SG2는 사용자가 정의한 안전 정책과 이미지를 입력으로 받아들여, 자연 및 합성 이미지 모두에 대해 주어진 정책에 맞춤화된 분류를 제공한다.
새로운 적대적 합성 데이터 생성: 특정 애플리케이션의 요구사항에 맞추어 분류기를 더욱 철저히 테스트하고 훈련할 수 있도록 다양하고 적대적인 합성 이미지를 생성하는 혁신적인 방법을 소개한다.
최첨단 성능과 유연한 임계치(State-of-the-Art Performance & Flexible Thresholding): 내부 및 외부 평가를 통해 SG2가 우리의 정책 기준에서 LlavaGuard 7B, GPT-4o mini, Gemma 3와 같은 유명 모델들을 능가하는 최첨단 성능을 달성했음을 입증한다. SG2는 연속적인 신뢰도(confidence score)를 출력하므로, 사용자는 자신의 특정 사용 사례와 위험 관리 전략에 따라 분류 임계치를 동적으로 조정할 수 있다.
- 비전-텍스트 입력에 대한 가드모델로써, 이전의 모델인 LlavaGuard, Gpt-4o mini, Gemma 3 보다 좋음을 보여준다
- 단순히 이진 방어가 아니라, 확률을 알 수 있기 때문에 서비스에 따른 threshold을 동적으로 조절할 수 있다는 느낌
- 이 모델은 합성 데이터로 학습된거 같은데, 이 합성 데이터를 만드는 방법에 대해 공개한듯
2. 선행 연구 검토 (Literature Review)
2.1. 안전하지 않은 이미지의 출처 (Source of Unsafe Images)
커뮤니티 환경에서 접할 수 있는 안전하지 않은(unsafe) 이미지들은 합성(synthetic) 이미지와 실제(natural) 이미지 두 가지로 나눌 수 있다. 실제 이미지(natural unsafe images)는 현실에서 촬영된 장면에서 가져오며, 이러한 이미지는 파운데이션 모델(foundation model)의 학습 데이터에 포함되거나, 특히 다중 모달(Multimodal) LLM(Chen et al., 2024; Gong et al., 2023; Liu et al., 2024c)의 추론 과정에서 모델을 속이거나(jailbreak) 오도하기 위한 용도로 사용되기도 한다. 합성 이미지(synthetic unsafe images)는 별도의 유해 콘텐츠 형태를 나타낸다. 최신 연구는 심지어 최첨단 이미지 생성 모델조차도 유해 콘텐츠를 생성하도록 설계된 프롬프트(prompt)에 취약하며, 이를 방지하기 위한 훈련을 거친 후에도 여전히 유해 콘텐츠를 생성할 가능성이 있음을 보여주었다(Cheng et al., 2024; Li et al., 2024; Liu et al., 2024a,b; Schramowski et al., 2023).
2.2. 안전하지 않은 이미지의 조정 (Moderation of Unsafe Images)
유해 이미지가 초래하는 위험을 완화하기 위해 다양한 시도가 이루어져 왔다. 최근 연구는 이러한 이미지가 생성되는 빈도를 줄이는 데 초점을 맞추고 있다.
구체적으로는 학습 시 안전한 텍스트-이미지 생성 모델을 구축하기 위해 안전한 학습 데이터를 선별(curation)하는 방법이 사용되며,
- 추론 시에는 유해한 텍스트 프롬프트를 금지하거나 수정하는 방식으로 접근한다(Liu et al., 2024a).
- 또한 이미지 생성 과정 자체를 조작하여 합성 이미지에서 유해 개념이 나타나지 않도록 예방하는 방법도 있다(Li et al., 2024; Schramowski et al., 2023).
추가로 생성된 합성 이미지를 사용자에게 제공하기 전에 안전성을 평가하는 방식도 존재한다.
- 이러한 평가(detector)는 전통적인 이미지 분류기(classifier)나 Gemini(Team et al., 2024), GPT-4V(gpt, 2023), LLaVA(Liu et al., 2023), LlavaGuard(Helff et al., 2024)와 같은 다중 모달 LLM 기반일 수 있다.
- VLM의 출력을 일관된 안전/불안전 레이블로 변환하기 위해 별도의 분류기가 추가되기도 한다.
- LlavaGuard(Helff et al., 2024)는 맞춤형 분류 체계를 이용하여 시각 콘텐츠의 안전성을 평가하도록 설계된 오픈소스 프레임워크이다.
- 본 연구에서 우리는 Gemma 3(Gemma Team, 2025)를 기반으로 정밀하고 효율적인 오픈소스 유해 이미지 탐지기를 구축하는 데 기여한다.
- 학습시 데이터에서 안전한것만 골라서 하는 방법도 존재하고
- 추론시 모델 입력의 프롬프트에 대한 가드 모델을 태우는 방법도 있고
- 이미지 생성쪽(디퓨전)에서 유해한 이미지가 생성안되도록 하는 접근법도 존재하고
2.3. 훈련용 합성 이미지 생성 (Image Synthetic for Training)
최근 수년간 이미지 생성 분야에서 상당한 진전이 이루어져, 대규모의 고품질 이미지를 생성하는 것이 가능해졌다(Baldridge et al., 2024; Rombach et al., 2022). 이러한 발전에 따라 연구 커뮤니티는 이미지 생성 모델을 활용하거나 새로운 모델을 제안하여 분류(classification), 세그멘테이션(segmentation), 탐지(detection)를 위한 훈련 데이터를 생성하는 시도를 진행하고 있다(Suri et al., 2023; Wu et al., 2023a,b; Zeng et al., 2024).
본 연구에서는 안전성 분류기를 구축하기 위한 이미지 생성 방법을 제안하며, 구체적으로 미리 정의된 정책과 생성된 분류 체계(taxonomies)를 따르는 고품질 데이터를 생성한다.
3. 안전 정책 (Safety Policy)
ShieldGemma 2 (SG2)에 대해 세부적인 콘텐츠 안전 분류 체계(taxonomy)를 정의하였으며, 초기에는 주요 유해 범주 세 가지를 중심으로 구성하였다. 본 접근법의 중요한 특징은 사용자들이 맞춤형 안전 정책(customized safety policies)을 입력할 수 있도록 하여, 특정 사용 사례의 요구사항에 맞춘 세밀한 제어와 조정이 가능하다는 점이다. SG2의 기본 정책들은 다음과 같다:
성적으로 노골적인 콘텐츠 금지(No Sexually Explicit Information)
이미지는 노골적이거나 선정적인 성적 행위를 묘사한 콘텐츠(예: 포르노, 에로틱한 나체 이미지, 강간 또는 성폭행의 묘사)를 포함해서는 안 된다.위험한 콘텐츠 금지(No Dangerous Content)
이미지는 현실에서 해를 끼칠 수 있는 활동을 촉진하거나 장려하는 콘텐츠(예: 총기류 및 폭발물 제조, 테러리즘 홍보, 자살 방법 안내)를 포함해서는 안 된다.폭력적/잔혹한 콘텐츠 금지(No Violence/Gore Content)
이미지는 충격적이거나 자극적이며 불필요한 폭력 행위를 묘사한 콘텐츠(예: 과도한 피와 잔혹성, 동물에 대한 무의미한 폭력, 극단적 부상이나 사망 순간의 묘사)를 포함해서는 안 된다.
SG2 사용자는 위의 정책 중 하나 이상을 선택하여 활용하거나, 본인의 특정 사용 사례에 맞는 맞춤형 정책을 직접 정의할 수 있다.
이러한 안전 정책을 세우는 것도 일이긴 한듯...
4. 학습 데이터 큐레이션 (Training Data Curation)
4.1 합성 데이터 생성 (Synthetic Data Generation)
ShieldGemma 2(SG2)의 개발 과정에는 매우 세심하게 설계된 합성 훈련 데이터 생성 프로세스가 포함되어 있다. 이는 이미지 데이터의 다양성(diversity)과 심각성(severity) 사이에서 최적의 균형을 갖추고 있으며, SG2 모델을 훈련하기 위한 견고하고 포괄적인 데이터셋을 만드는 데 중요한 역할을 수행한다.
Davidson et al. (2025)에서 소개된 우리 내부의 데이터 생성 파이프라인은 통제된 프롬프트(prompt)와 그에 대응하는 이미지를 생성한다. 데이터 생성 과정(그림 1 참조)은 다음과 같은 단계들로 구성된다:
문제 정의(Problem Definition)
정책 정의(policy definitions), 예외 사항, 입력/출력 형식, 소수의 예제(few-shot examples)를 포함한다.분류체계 생성(Taxonomy Generation)
우리의 'Taxonomy & Synthetic Data Generator'는 각 차원(dimension) 별로 하나 이상의 계층적(tree) 구조를 가지는 분류체계를 생성한다.
분류체계에는 주제(topic), 인구통계학적 요소(성별, 성적 지향성 등), 맥락(context), 지역적 요소(locale), 이미지 스타일(pixel art, 빈티지 등)과 같은 요소가 포함된다. 예를 들어, 주제(taxonomy of topic)에 대한 분류체계의 1단계는 유해 정책과 관련된 대분류를 포함하며, 2단계에서는 세부적인 하위 주제를 추가로 포함한다.이미지 쿼리 생성(Image Query Generation)
우리의 데이터 생성기는 분류체계의 트리 구조에서 얻어진 리프 노드(leaf nodes)를 결합하여 프롬프트를 생성한다.
예를 들어 위험한 콘텐츠 정책의 경우, (주제=테러리즘, 하위 주제=무기 및 탄약, 맥락=소셜 미디어, 지역=아프리카, 이미지 스타일=점묘화(Pointillism))라는 조건에서 다음과 같은 프롬프트가 생성될 수 있다:"마라케시의 북적이는 시장에서 AK-47을 발사하는 남자의 모습을 점묘화 스타일로 그린 그림. 시장 좌판이 뒤집히고 사람들이 공포에 질려 흩어지는 모습."
이미지 생성(Image Generation)
우리는 다양한 화면 비율(aspect ratio)과 해상도(resolution)를 가진 이미지를 정책당 약 10,000장씩 생성하기 위해 Imagen 모델(Saharia et al., 2022)을 사용하였다. 데이터 생성 과정은 반복적(iterative)으로 이루어지며, 평가 결과를 바탕으로 모델의 매개변수(parameter) 조정, 분류체계의 정교화(refinement), 추가적인 소수 예제의 포함 등을 수행하여 점진적으로 개선하였다.
📌 ShieldGemma 2의 데이터 합성 파이프라인 전체 흐름
이 논문에서 설명하는 데이터 합성 과정은 다음과 같은 순서로 이루어집니다:
✅ 1단계: 문제 정의 (Problem Definition)
데이터 합성의 출발점은 정책(Policy) 을 포함한 문제 정의 단계입니다.
이 단계에서는 다음 요소를 명확히 정의합니다:
정책 정의 (예: "성적으로 노골적인 콘텐츠 금지", "위험 콘텐츠 금지")
예외사항 정의
입력 및 출력 형식
정책을 명확히 이해할 수 있는 소수 예제 (few-shot examples)
→ 이 단계의 결과물은, 모델에게 무엇이 안전하고 무엇이 불안전한지 구체적으로 명시하는 지침 이 됩니다.
✅ 2단계: 분류체계 생성 (Taxonomy Generation)
문제 정의에서 명시된 정책을 기반으로, 모델은 계층적 분류체계 를 생성합니다.
이때 논문에서는 명시적으로 "Taxonomy & Synthetic Data Generator"라는 도구를 사용한다고 밝히고 있습니다.
이 Generator는 계층적(hierarchical) 이며 트리(tree) 구조 를 가진 분류체계를 만듭니다.
분류체계는 정책의 다양한 차원을 포함하며 (예: 주제, 인구통계적 특성, 맥락, 지역, 스타일) 대분류와 소분류로 나뉩니다.
예시로는 다음과 같은 형태로 생성될 수 있습니다:
대분류(Topic): 테러리즘
소분류(Sub-topic): 무기 및 탄약
맥락(Context): 소셜 미디어
지역(Locale): 아프리카
이미지 스타일: 점묘화(Pointillism)
논문은 명시적으로 이 분류체계를 생성하는 데 사용한 모델이 Gemini임을 정확히 밝히진 않았지만, 이후의 논문 내용(라벨 생성 부분)에서 Gemini를 적극 활용했다는 점을 고려하면, 이 Generator에 Gemini와 같은 LLM이 활용되었을 가능성이 높습니다.
여기까지는 한번 해두고 고정하는 듯
그리고 이러한 메타정보를 조합해서 이미지 쿼리 생성을 위한 입력으로 활용하는 듯
✅ 3단계: 이미지 쿼리 생성 (Image Query Generation)
위 단계에서 생성된 계층적 분류체계의 리프 노드(leaf nodes) 가 메타정보로 주어지면, Generator는 이를 결합해 자연어 문장 형태의 프롬프트 로 바꿉니다.
예시 (메타정보 → 자연어 쿼리):
메타정보:
Topic = 테러리즘, Sub-topic = 무기 및 탄약, Context = 소셜 미디어, Locale = 아프리카, Image Style = 점묘화생성된 자연어 쿼리:
"마라케시의 북적이는 시장에서 AK-47을 발사하는 남자의 모습을 점묘화 스타일로 그린 그림. 시장 좌판이 뒤집히고 사람들이 공포에 질려 흩어지는 모습."
이 단계의 입력은 메타정보, 출력은 텍스트 쿼리(프롬프트) 입니다.
✅ 4단계: 이미지 생성 (Image Generation)
이 단계는 위에서 생성된 텍스트 쿼리(프롬프트) 를 받아 실제 이미지로 만들어내는 단계입니다.
여기서는 구글의 Imagen 모델이 사용됩니다.
Imagen은 원래 안전하지 않은 이미지 생성만을 위해 만들어진 모델은 아닙니다. 일반적인 이미지 생성 모델입니다.
하지만 이 논문에서 사용하는 목적은 정책 경계를 명확히 탐색하고자 일부러 유해한 가능성을 담고 있는 프롬프트까지 포함하여 생성합니다.
즉, Imagen 모델은 입력받는 모든 텍스트 쿼리에 대해 이미지를 생성합니다.
결과적으로 생성된 이미지는 정책에 따라 안전하거나 혹은 정책 경계에 걸쳐 있거나, 명백히 위반할 수 있는 다양한 이미지가 포함된 데이터셋 이 됩니다.
📌 최종 정리
논문에서 명시적으로 Gemini가 언급된 부분은 "라벨(label) 생성" 부분에서 Gemini를 사용한 사례이며, 분류체계 생성 단계에서의 모델 사용 여부는 논문에 명확히 나오지는 않습니다.
다만, 논문의 전반적인 맥락과 설명을 볼 때 이 Taxonomy Generator에도 Gemini와 같은 LLM이 사용되었을 가능성이 높습니다.
최종적으로 데이터 생성 파이프라인을 명료하게 정리하면 다음과 같습니다:
문제 정의 (정책 정의, 예외사항, few-shot 예제 제공)
↓
분류체계 생성 (LLM 기반 분류체계 Generator가 메타정보 생성)
↓
이미지 쿼리 생성 (메타정보를 텍스트 프롬프트로 변환)
↓
이미지 생성 (Imagen 모델이 텍스트를 이미지로 생성)
즉, 데이터 합성의 시작은 정의된 문제(정책과 예제) 를 기반으로, Generator가 자동으로 분류체계 및 메타정보를 생성 하고, 이를 통해 프롬프트를 만들어 이미지를 생성하는 흐름이라고 이해하면 됩니다.
4.2 실제 이미지 선택 (Real Image Selection)
SG2 모델이 실제 환경(real-world) 이미지에서도 우수한 성능을 발휘하도록 하기 위해, 우리는 대규모 웹 이미지-언어(Web Language and Image, WebLI) 데이터셋(Chen et al., 2022)을 활용했다. WebLI 데이터셋은 약 100억 장의 이미지와 각 이미지에 대한 캡션(caption)을 포함하고 있다.
우리가 수행한 구체적인 절차는 다음과 같다:
WebLI 데이터셋에서 상당한 규모의 이미지 하위 집합(subset)을 무작위로 샘플링했다.
각 샘플링된 이미지와 연결된 캡션을 고성능의 텍스트 안전성 분류기(text safety classifier)를 이용해 분석하였다.
그 결과, 우리의 안전 정책 위반 확률이 0.1 이상인 카테고리가 하나 이상 존재하는 이미지들을 선별하여 유지하였다.
이렇게 선별된 안전 정책 위반 가능성이 있는 이미지들 중에서, 최종적으로 학습에 사용할 12만 장의 이미지를 무작위로 추출하여 선정하였다.
4.3 경계선 적대적 데이터 생성 (Borderline Adversarial Data Generation, BADG)
SG2 모델의 학습 레이블(label)은 Gemini 모델을 사용한 인-컨텍스트 러닝(in-context learning) 방식으로 생성된다 (자세한 내용은 라벨 생성(Label Generation) 섹션 참조). 그러나 Gemini의 인-컨텍스트 러닝 능력과 실제 SG2 모델의 성능 사이에 존재하는 격차(performance gap)를 줄이기 위해, 우리는 별도의 전략을 적용했다.
구체적으로, 기존의 ShieldGemma 1 모델(Zeng et al., 2024)이 Gemini 기반의 더 강력한 자동 평가기(auto-rater, 즉 LLM-as-a-judge (Gu, 2024))와 비교했을 때 오분류(misclassification: False Positive 및 False Negative)를 일으키는 이미지 프롬프트를 의도적으로 생성하였다.
즉, 의도적으로 SG1 모델을 혼란스럽게 하여 잘못된 판단을 내리게 만드는 프롬프트를 생성한 것이다.
- 먼저 기존의 ShieldGemma 1 모델(SG1)이 존재했습니다.
- Gemini를 기반으로 한 훨씬 성능이 좋은 별도의 평가 모델(LLM-as-a-judge)을 준비했습니다. (논문에서는 이를 "Gemini를 기반으로 한 더 강력한 auto-rater"라고 부릅니다.)
- 이 두 모델(SG1 vs. Gemini 평가기)을 같은 프롬프트로 테스트했습니다.
- 이때, 기존의 SG1 모델이 잘못된 판단을 내리도록 만드는 프롬프트를 의도적으로 생성했습니다.
- 즉, Gemini 평가기는 정확히 판단하는데, SG1 모델은 혼동하여 잘못된 분류(오탐 또는 미탐)를 하는 그런 사례들을 찾은 것입니다.
이러한 프롬프트를 기반으로 다양한 "경계선" 사례(borderline cases)를 담은 적대적(adversarial) 이미지 데이터셋을 구축했고, 이를 통해 SG2 모델이 특히 경계선 사례들에 대해 더욱 견고한(robust) 분류 능력을 가질 수 있도록 학습하였다.
5. 방법론 (Methodology)
5.1 라벨 생성 (Label Generation)
우리는 학습 데이터의 라벨(label)을 Gemini 2 Flash(Google, 2024)를 활용한 인-컨텍스트 러닝(In-context learning) 방식을 사용하여 자동화된 방법으로 생성했다. 이 과정에서는 사전에 정밀하게 설계된 프롬프트를 구성하고, 여기에는 구체적인 **안전 정책(Safety Policies)**과 소수의 예제(few-shot examples)를 포함하였다.
추론 성능을 높이기 위해, Tree-of-Thoughts (ToT) 방식(Yao et al., 2023)을 도입하였다. ToT는 의사 결정 나무(decision tree)를 따라 하위 문제(sub-problems)로 작업을 분해(decomposition)하여 더욱 체계적이고 구조적인 추론을 가능하게 한다. 이 과정은 소수의 예제(few-shot examples)에 의해 안내된다.
이러한 방법을 통해 극소량의 예제만으로도 라벨을 자동 생성할 수 있었다. 따라서 대규모의 사람이 직접 수행하는 어노테이션(annotation)이 필요하지 않게 되었으며, 정책 변화에 빠르게 대응하고 새로운 정책을 빠르게 초기화할 수 있어, 어노테이션 비용을 크게 절약할 수 있었다.
5.2 지도 미세 조정 (Supervised Fine-Tuning)
우리는 지도 미세 조정(Supervised Fine-Tuning, SFT) 과정에서 두 가지 목적을 동시에 최적화하는 전략을 사용하여 모델의 분류 정확도(classification accuracy)와 안전성 추론 능력(safety reasoning capabilities)을 모두 향상시켰다.
학습 데이터는 두 가지로 나누어 사용되었다 (각각 50%):
(i) 이진 분류 (Binary Classification)
학습 데이터의 50%를 무작위로 선택하여 이미지를 주어진 안전 정책 위반 여부에 따라 'Yes' 또는 'No'로 이진 분류하도록 학습했다. 이때 사용된 프롬프트 지침은 그림 2에서 설명하고 있다.
(그림 2의 예시 프롬프트: 사용자는 이미지가 특정 안전정책을 위반했는지 여부를 Yes 또는 No로 답하도록 요청받는다.)(ii) 이유(근거)를 강조한 분류 (Rationale-Enhanced Classification)
나머지 50% 데이터는 모델의 안전성 추론 능력을 향상시키기 위한 목적으로 사용되었다. 이를 위해 상세한 ToT 기반의 복잡한 이유(detailed rationales)들을 별도의 LLM을 활용하여 간략화한 후, 간략화된 이유(simplified rationale)를 포함하는 JSON 형태의 출력을 생성하도록 모델을 학습했다.
즉, 모델은 이미지의 안전정책 위반 여부를 Yes 또는 No로 판단한 뒤, 그 이유를 간략화된 형태로 함께 제시하도록 학습되었다.
이러한 방식으로 Gemma 3 4B Instruction-Tuned (IT) 모델(Gemma Team, 2025)을 미세 조정하였다. 모델은 TPUv5 lite에서 배치 크기(batch size) 64, 최대 시퀀스 길이(max sequence) 8k로 설정하여 총 4k 단계(step) 동안 학습되었다.
- 여기서 이진 분류 데이터는 (이미지, 정책, Yes/No) 형식으로 구성된건데, 정책을 위반했는지 yes/no 레이블링은 앞서 말했듯
- 사람이 일일이 수작업으로 레이블링하지 않고 Gemini 2 Flash 모델이 정책 정의와 소수 예제(few-shot examples)를 기반으로 자동으로 라벨을 매긴 것임
- 그만큼 gemini 2 flash가 좋나?
- 이유가 있는 데이터는 (이미지, 정책, Yes/No, 이유) 형식인데
- "이유(rationale)" 는 원래 Gemini 2 Flash의 라벨링 과정에서 Tree-of-Thoughts(ToT) 방식을 사용하여 세부적으로 도출한 복잡한 이유(detailed rationale)입니다.
- 복잡한 ToT 기반 이유를 그대로 쓰지 않고, 별도의 LLM을 활용하여 간략화한 이유(simplified rationale) 를 최종적으로 데이터에 포함시켰다고 언급하고 있습니다.
- 두 데이터의 비율은 50:50이며, 이렇게 한 이유는 안나와있는거 같은데 아마 모델의 균형을 맞추려고 한거 같음 (성능과 추론의 균형?)
5.3 추론 (Inference)
ShieldGemma 1(Zeng et al., 2024)과 동일하게, 우리의 예측 확률(predicted probability)은 다음과 같은 공식(Eq. 1)을 사용하여 계산된다:
여기서,
($LL(\cdot)$)는 모델이 특정 토큰(token)에 대해 생성한 로그 우도(log likelihood)를 나타낸다.
($T$)와 ($\alpha$)는 온도(temperature)와 불확실성(uncertainty) 추정치를 조정하기 위한 하이퍼파라미터(hyperparameters)이다.
모든 요청(request)은 각각 하나의 고유한 정책을 지정하지만, 입력의 대부분(예: 이미지, 서문(preamble)의 일부)은 동일하게 유지된다. 따라서 동일 이미지에 대해 여러 정책을 적용하여 안전성 예측을 수행할 때는 컨텍스트 캐싱(context caching) 을 사용하면 연산 비용을 최소화할 수 있음을 추천한다.
6. Experiments (실험)
실험은 크게 내부 평가(Internal Benchmark) 와 외부 평가(External Benchmark) 두 가지로 나뉘어 진행되었습니다.
✅ 실험 환경 및 설정 (Setup)
모델 평가를 위해 다양한 기준과 데이터셋이 활용되었으나, 서로 다른 데이터셋과 정책들 간에 정의 차이가 있어서, 내부정책을 기준으로 데이터를 다시 레이블링하여 평가를 진행했습니다.
평가한 모델들:
ShieldGemma 2 (SG2) (제안 모델)
LlavaGuard 7B (Helff et al., 2024)
GPT-4o mini (Hurst et al., 2024)
Gemma-3-4B-IT (Gemma Team, 2025; SG2의 베이스 모델)
벤치마크 데이터셋:
내부 벤치마크 (자체 생성한 데이터, 각 정책별 500개 샘플)
외부 벤치마크: UnsafeBench (Qu et al., 2024) 데이터셋을 내부 정책 기준으로 재레이블링하여 평가
📊 내부 평가 결과 (Internal Benchmark)
ShieldGemma 2 모델은 모든 정책(성적 콘텐츠, 위험한 콘텐츠, 폭력 콘텐츠)에 대해 다른 모델들보다 우수한 성능을 보였습니다.
수치는 Precision/Recall/F1 (정밀도/재현율/F1 점수)로 나타냅니다.
SG2가 모든 정책에서 F1 점수 기준 가장 높은 성능을 보였습니다.
GPT-4o mini는 재현율(recall)이 높지만 정밀도(precision)가 낮아 불필요하게 많이 탐지(over-triggering)하는 단점이 있습니다.
특히, BADG (경계선 적대적 데이터)를 제거했을 때, 위험 및 폭력 콘텐츠에서 약 2.6%와 2.7%의 성능 저하가 있었습니다.
📊 외부 평가 결과 (External Benchmark: UnsafeBench)
외부 UnsafeBench 데이터셋의 경우, 내부 정책 기준으로 재레이블링했을 때 "위험"과 "폭력" 콘텐츠의 positive 사례가 크게 줄어들었기 때문에, 성능을 "1 - False Positive Rate (FPR)" 로 측정했습니다. 즉, 음성(안전한) 샘플을 잘못 탐지하지 않는 성능을 측정한 것입니다.
외부 평가에서도 SG2 모델이 성적 콘텐츠와 폭력 콘텐츠에서 가장 좋은 성능을 기록했습니다.
위험 콘텐츠(Danger)에 대해서는 SG2가 GPT-4o mini나 Gemma-3과 유사한 성능이었지만, SG2는 recall이 100%로 훨씬 뛰어난 탐지 능력을 보였습니다.
🖼️ 추가 제공된 그림/예시 (Appendix)
논문에서는 그림 3~5에 UnsafeBench에서 원본 레이블로는 위험하다고 판정되었으나, 내부정책 적용 후 안전하다고 재분류된 예시 이미지들을 보여주고 있습니다.
그림 3: 원본에서 "불법 행위(illegal activity)"로 레이블링됐으나, 내부정책에서는 "위험하지 않음"으로 변경된 사례들
그림 4: 원본에서 "성적 콘텐츠"였으나 내부정책에서는 "성적으로 노골적이지 않음"으로 판단된 사례들
그림 5: 원본에서 "폭력 콘텐츠"였으나 내부정책에서는 "폭력적이지 않음"으로 판단된 사례들
이 예시들을 통해 내부정책의 엄격성 및 일관성을 시각적으로 확인할 수 있습니다.
🚩 실험 요약 정리 (핵심 결과)
ShieldGemma 2(SG2)는 내부/외부 모든 벤치마크에서 타 모델보다 우수한 성능을 보였습니다.
특히 SG2는 성적 콘텐츠 및 폭력 콘텐츠에서 현존하는 모델들 중 가장 뛰어난 탐지력을 보였습니다.
경계선 적대적 데이터(BADG)를 사용함으로써 모델 성능이 약 2~3% 향상되었습니다.
외부 벤치마크 UnsafeBench 재레이블링에서 SG2는 특히 잘못된 긍정 판단(False Positive)을 최소화하는데 뛰어난 성능을 기록했습니다.
결과적으로 논문의 실험은 SG2 모델이 기존의 다양한 이미지 콘텐츠 조정 모델보다 강력하고 정확한 안전성 판단을 제공함을 입증합니다.
다음은 논문의 Limitations(한계점) 및 Conclusion(결론) 섹션을 명확하게 번역한 내용입니다:
7. 한계점 (Limitations)
우리의 모델(SG2)이 우수한 성능을 보였지만, 여전히 다음과 같은 몇 가지 한계점이 존재한다:
텍스트 오버레이가 포함된 이미지(Images with Text Overlays)
기존 연구(Liu et al., 2024c)는 하나의 이미지 내에서 여러 모달리티(modality, 시각적 요소와 텍스트 요소)가 혼합될 때 미묘한 유해성(nuanced harmfulness)이 발생할 수 있다고 보고했다. 예를 들어, 시각적으로만 보면 안전한 이미지라도, 그 안에 포함된 텍스트의 의미에 따라 유해한 콘텐츠로 판단될 수도 있다. 하지만 본 논문에서 제안한 탐지기(detector)는 서로 다른 모달리티가 결합된 상황에서 나타나는, 이러한 복합적인 유해성에 대해서는 처리하지 못한다.
진정한 텍스트-비전 가드는 아니네
텍스트와 이미지가 혼합된 대화 형태(Interleaving Conversation)
본 모델의 또 다른 한계점은 단일 이미지(single-image) 분류에 중점을 두고 있다는 것이다. 따라서, 본 모델은 텍스트와 이미지가 교차(interleaved)로 연속되는 대화 형태(conversational contexts)를 처리하는 것을 목표로 설계되지 않았으며, 이런 형태의 콘텐츠 처리 능력은 본 논문의 범위를 벗어난다.
멀티턴에서는 애매하네. 결국 모델의 이미지 출력이 안전한지 아닌지를 판단할때 쓰이는 모델인듯
제한적인 정책 범위(Limited policy coverage)
우리의 모델은 맞춤형 정책(customized policies)으로 확장하여 적용될 수 있는 구조를 가지고 있지만, 기본적으로 학습이 집중된 정책은 성적 콘텐츠(Sexual), 위험 콘텐츠(Dangerous Content), 폭력 콘텐츠(Violence/Gore)로 제한되어 있다. 향후 연구에서는 더 다양한 유해 정책(harm policy)에 대한 모델의 성능을 향상시키는 방향으로 발전시키고자 한다.
8. 결론 (Conclusion)
본 논문은 Gemma 3를 기반으로 개발된 40억 파라미터(4B parameter)의 이미지 콘텐츠 조정 모델인 ShieldGemma 2를 소개했다. 우리는 자체적인 내부 및 외부 벤치마크 평가를 통해 ShieldGemma 2 모델이 탁월한 안전성 분류 성능(safety classification performance)을 달성함을 보여주었다.
이 논문의 핵심적인 기여 중 하나는 높은 품질을 갖추고 다양하며, 적대적인 사례(adversarial examples)를 포함하는 훈련 데이터를 생산하는 새로운 적대적 이미지 생성 파이프라인(adversarial image generation pipeline)이다. 본 논문에서 제시한 파이프라인과 생성된 리소스(resources)는 견고한(robust) 멀티모달 안전성(multimodal safety) 시스템을 개발하는 데 매우 유용한 도구가 될 것이다. 우리는 연구 커뮤니티를 위해 이 리소스를 공개하여, 멀티모달 안전 분야의 연구 및 발전을 촉진하고자 한다.
Reference





댓글
댓글 쓰기