NL-314, Recommendations for Technical AI Safety Research Directions, Antropic Blog 2025
1. Evaluating capabilities
요지: “모델이 얼마나 강한가”를 벤치마크 점수 포화(saturation) 문제를 넘어서, 실제 영향과 더 잘 연동되는 평가로 측정하자. (일부 CBRN 등은 보안 환경에서)
예시: “도구를 붙여서(open-ended) 연구 과제를 끝까지 자율 완수하는 능력”을 인간 기준선과 함께 평가.
2. Evaluating alignment
요지: “대화가 유쾌함/유해요청 거부/독성 회피” 같은 표면 지표를 넘어, 오도·가장·숨김 같은 비정렬 성향을 더 직접적으로 재고 싶다.
예시: 모델이 “정렬된 척(alignment faking)” 하거나, 특정 조건에서 의도적으로 인간을 오도할 수 있는지 측정.
2.1 Understanding model cognition
요지: “안전해 보이는 출력”뿐 아니라, 모델이 **어떤 내부 이유(신념/사용자 모델링/아첨 등)**로 그 출력을 냈는지(인지)를 파악하자.
예시: (Externalized cognition) CoT 스크래치패드를 분석하거나, (Introspection) 은닉상태를 언어로 보고하도록 학습해 “지금 계획이 뭔지”를 검증.
2.2 Persona가 OOD 일반화에 미치는 영향
요지: “도움되는 조력자” 같은 페르소나 차이가 OOD 상황에서의 안전 행동(예: 정렬 가장)에 영향을 줄 수 있다.
예시: 능력은 비슷하지만 페르소나만 다른 모델들을 만들어, 낯선 프롬프트에서 위험 행동 빈도가 달라지는지 비교.
2.3 Chain-of-thought faithfulness
요지: CoT가 “진짜 추론”을 반영하지 않을 수 있으니, 비신실 CoT 탐지/보장 기법이 필요.
예시: “수학 vs 사회적 추론”에서 신실성이 어떻게 다른지, “CoT 모니터링을 안다”가 신실성을 올/내리는지 실험.
3. AI control
요지: 설령 모델이 위험을 ‘시도’하더라도 성공하지 못하게, 런타임 안전장치와 함께 배치하는 전략(통제).
3.1 Behavioral monitoring
요지: (행위자 actor) 모델의 입출력을 (모니터 monitor) 모델이 감시. 핵심 리스크는 탈옥·공모로 모니터 실패가 “필요한 순간”에 집중될 수 있다는 점.
예시: 행위자 출력을 모니터에게 보여주기 전 패러프레이즈/편집해 공모·탈옥 기회를 줄이기.
3.2 Activation monitoring
요지: 입출력 대신 **은닉 활성화(latent activations)**를 감시(프로브로 “위험 개념” 감지). 장점: 활성화는 모델이 통제하기 어렵고 추론과 직접 연결. 단점: 분포 변화에 취약할 수 있음.
예시: 코드 생성 모델의 활성화로 “안전 코드 vs 취약 코드”를 분류하는 프로브를 학습.
3.3 Anomaly detection
요지: 미지의 실패를 대비해, 지도학습 분류기만이 아니라 비지도 이상탐지로 ‘이상한/희귀한’ 입력·행동을 플래깅.
예시: 모니터가 놓칠 수 있는 희귀 탈옥 입력을 이상탐지로 모아 사람 라벨링 → 모니터 커버리지 확장.
4. Scalable oversight
요지: 모델이 인간 수준/초과 과제를 할 때 감독 신호가 노이즈·체계적 오류·고비용이 되므로, 지능이 올라가도 같이 확장되는 감독 메커니즘이 필요.
4.1 체계적(악용 가능한) 감독 오류 하에서의 감독 개선
요지: 모델이 감독 오류를 학습해 악용(“채점자에게만 그럴듯한 답”)할 수 있으니, R(대리) → R′(개선된 대리)로 감독을 개선하는 테스트베드를 제안.
예시: 일부러 R에 체계적 오류를 주입해 R을 만들고, 모델이 그 오류를 ‘알게’ 한 뒤(시스템프롬프트) 학습 결과를 R로 평가.
4.2 Recursive oversight
요지: 나쁜 감독에서 출발해, AI 보조를 포함한 파이프라인으로 더 나은 감독 신호를 반복적으로 부트스트랩.
예시: 과제 분해, debate, prover-verifier 게임으로 “최선의 수행”이 균형이 되게 설계.
4.3 Weak-to-strong / Easy-to-hard generalization
요지: 감독을 개선하지 않고도, 일반화 성질에 기대는 접근.
예시: 약한 감독자(작은 모델)로 강한 모델을 학습시켜도 성능이 올라가는지(weak→strong), 쉬운 문제의 고품질 라벨로 어려운 문제까지 일반화되는지(easy→hard).
4.4 Honesty
요지: 정답을 우리가 판단 못 하더라도, 모델이 “자기 생각엔 맞다/틀리다”를 활용해 **정직성(믿고 있는 바대로 말함)**을 판별/제어할 수 있는지.
예시: “모델 내부의 truth representation”을 이용해, 의도적으로 비정직하게 학습된 상황에서도 통하는지 연구.
5. Adversarial robustness
요지: 배치 환경은 적대적이므로, 탈옥·오염·에이전트 하이재킹 등 공격에도 의도대로 행동하게 만들고, 방어의 실질 신뢰성을 재자.
5.1 현실적·차등적 탈옥 벤치마크
요지: “거부를 뚫었나”가 아니라, 탈옥이 실제 유해 행위를 가능하게 할 정도로 유용한 도움을 주는지(차등적 피해)를 측정.
예시: 검색엔진 등 현실적 도구를 가진 공격자 기준선 대비, 모델이 “원래 못하던 사이버 공격 과업”을 얼마나 가능하게 하는지 평가.
5.2 Adaptive defenses
요지: 정적 방어가 아니라, 공격자 행동에 맞춰 쿼리 간 패턴을 보고 적응하거나, 새 공격이 뜨면 빠르게 패치하는 방어.
예시: 여러 쿼리를 묶어 “저수준 하위질문 → 고수준 악의 목표”를 추론해 차단(Inter-query), 신속 대응(Rapid response).
6. Miscellaneous
6.1 Unlearning dangerous information and capabilities
요지: 이미 학습된 위험 지식/능력을 정말로 제거(화이트/블랙박스 추출에도 재등장하지 않게)하는 야심찬 언러닝.
예시: 언러닝 후 추가 파인튜닝으로도 해당 지식이 다시 나오지 않게 만들기.
6.2 Learned governance for multi-agent alignment
요지: 개별 에이전트가 정렬돼도, 다중 에이전트 상호작용에서 **조율 실패(책임 전가, 정보 미공유, 작은 외부효과 누적 등)**가 새로 생길 수 있어, 이를 거버넌스로 완화하고 관측 데이터로 학습해 적응시키자.
예시: “문제 발견 → 전달만 하다 종결”되는 책임 공백을 막는 규칙/인센티브 설계, 게임이론+실험 결합
1. Evaluating capabilities
AI 시스템의 역량은 어떻게 측정할 수 있을까?
사회가 강력한 AI로의 전환을 성공적으로 헤쳐 나가기 위해서는, 현재의 AI 시스템이 무엇을 할 수 있는지, 그리고 앞으로 어떤 영향을 미칠지에 대해 경험적 근거에 기반한 전문가 합의가 존재하는 것이 중요하다. 그러나 현실에서는 AI 발전의 궤적에 대해서도, 심지어 현재 AI 시스템의 역량에 대해서조차도 전문가들 사이에 광범위한 의견 불일치가 존재한다.
박사 수준의 지식을 겨냥한 고난도 벤치마크를 포함해 많은 AI 역량 벤치마크는 빠르게 포화(saturation)되며, 그 결과 AI 발전을 연속적이고 외삽 가능한 신호로 제공하지 못한다. 반면, AI 시스템의 실제 세계에서의 영향은 종종 인상적인 벤치마크 점수에 비해 뒤늦게 나타난다. 따라서 AI 역량을 실제 영향과 잘 연동해 추적할 수 있는 고품질 평가 체계를 구축하는 것이 중요하다.
특정 국가 안보에 핵심적인 영역—예를 들어 화학, 생물, 방사능, 핵(CBRN) 무기 개발 역량과 같은 분야—에서는 이러한 평가가 정부와의 협력을 통해 보안이 확보된 실험실에서 수행되어야 한다. 그러나 그 밖에도 AI 시스템의 영향을 이해하는 데 중요한 역량들이 많이 있다. 예를 들어 새로운 연구 수행 능력, 도구와의 상호운용 능력, 개방형 과제를 자율적으로 완수하는 능력 등이 그러하다. 이러한 역량들에 대해 인간 기준선(human baseline)을 포함한 더 많은 고품질 평가가 이루어지기를 기대한다.
우리가 추가적인 연구를 기대하고 있는 역량 평가에 대해서는 과거의 공지에서 더 많은 정보를 확인할 수 있다(다만 해당 이니셔티브의 마감일은 이미 종료되었음을 유의하기 바란다).
2. Evaluating alignment
AI 시스템이 얼마나 잘 정렬되어 있는지는 어떻게 측정할 수 있을까?
현재 최전선(frontier) 모델의 정렬에 대한 측정은 주로 다음과 같은 비교적 표면적인 특성에 초점을 맞추고 있다.
모델이 대화하기에 쾌적한 보조자 역할을 하는가
모델이 유해한 질의에 대해 거부하는가
모델이 독성(toxic) 텍스트 생성을 회피하는가
이러한 특성들은 현재의 AI 챗봇 안전성을 보장하는 데에는 충분하지만, 앞으로의 AI 시스템은 우리가 예측할 수 없는 상황 속에서, 다양한 (때로는 고위험의) 환경에 배치될 가능성이 크다. 따라서 AI 시스템이 비정렬(misaligned) 행동을 보일 성향을 더 잘 측정할 수 있는 방법이 필요하다.
예를 들어, 하나의 모델이 주어졌을 때 우리는 다음과 같은 질문에 답하고 싶을 수 있다.
이 모델은 **충동(drives), 목표(goals), 가치(values), 혹은 선호(preferences)**를 가지고 있는가? 있다면 그것들은 무엇인가?
예를 들어, 우리는 모델들이 아첨적(sycophantic) 성향을 가지고 있음을 발견했다. 즉, 일반적으로 사용자를 만족시키는 응답을 선호한다.
이 모델은 자신이 실제보다 더 잘 정렬된 것처럼 의도적으로 가장하는 경우가 있는가?
자신의 충동, 목표, 가치, 선호를 숨기기도 하는가?
보유하고 있는 능력을 전략적으로 드러내지 않기로 선택하는 경우가 있는가?
어떤 조건에서 이 모델은 **의도적으로 인간을 오도(mislead)**할 수 있는가?
이러한 질문들은 극도로 미묘하며, 많은 경우 모호하거나 명확히 정의되지 않았지만, 향후 배치(deployment) 결정에 있어 치명적으로 중요한 의미를 가질 수 있다.
예를 들어, 다음과 같은 모델을 생각해 보자.
(1) 극도로 해로운 행동을 성공적으로 수행할 수 있을 만큼 충분히 유능하지만,
(2) 통제된 실험실 환경에서는 일반적으로 그러한 행동을 회피하는 모델이다.
이러한 모델을 광범위하게 배치해도 괜찮다고 확신하려면, 우리는 무엇을 해야 할까?
2.1 Understanding model cognition
많은 AI 연구는 AI 시스템을 입력/출력 행동의 관점에서 이해하는 데 초점을 맞춘다. 행동적 질문의 예로는 다음과 같은 것들이 있다.
모델의 답변 중 얼마나 많은 비율이 정답인가?
어떤 입력이 모델로 하여금 독성(toxic) 텍스트를 생성하게 하는가?
모델은 질문을 받았을 때 사용자 이익을 우선한다고 주장하는가?
모델의 정렬(alignment) 수준을 평가할 때, 우리는 단순히 모델의 출력이 무해해 보이는지만 확인하고 싶은 것이 아니라, 모델이 ‘올바른 이유로’ 그러한 출력을 내놓았는지를 이해하고자 한다. 따라서 우리는 모델 행동에 대한 이해를, 그러한 행동의 근간이 되는 **인지(cognition)**에 대한 연구로 보완하고자 한다. 모델 인지를 이해한다는 것은, 특정한 관심 행동을 보이게 만든 모델의 사고 과정이 무엇이었는지를 묻는 것이다.
예를 들어, 우리는 다음과 같은 질문을 던질 수 있다.
모델이 어떤 답변을 했을 때, 그것이
해당 답이 옳다고 생각했기 때문인가?
사용자가 그 답을 옳다고 믿을 것이라고 모델링했기 때문인가?
혹은 그 답이 다른 방식으로 사용자를 만족시킬 것이라고 생각했기 때문인가?
모델은 **계획(plans)**을 수립하는가? 그렇다면 그 계획은 무엇인가?
모델은 자신이 처한 상황에 대해 무엇을 알고 있는가?
자신이 학습 중인지, 혹은 어떻게 모니터링되고 있는지에 대해 추정하는가?
이러한 지식이 모델의 행동에 어떤 영향을 미치는가?
모델은 질문을 받았을 때 보고하지 않는 정보를 알고 있는가?
모델 인지를 이해하는 것은, 예를 들어 **감사(auditing)**나 레드팀(red-teaming) 과정에서 문제 행동을 더 빠르게 탐지하거나, 학습 중 감독(oversight)을 개선하거나, 분포 밖(out-of-distribution) 상황에서의 모델 행동을 예측하는 데 유용할 수 있다.
모델 인지를 이해하기 위한 연구는 방대하며, 특히 기계적 해석 가능성(mechanistic interpretability) 분야에서 활발하다. 이 분야는 학습된 AI 시스템 내부에 형성된 알고리즘을 직접 해독하는 방법에 초점을 둔다. 기계적 해석 가능성의 전반을 여기서 설명하기보다는, 독자에게 Anthropic 해석 가능성 팀의 블로그를 참고할 것을 권한다.
한편, 우리는 모델 인지를 이해하기 위한 다른 접근법들에도 충분한 여지가 있다고 본다. 예를 들어 다음과 같은 방법들이 있다.
외재화된 인지(Externalized cognition):
모델로 하여금 “생각을 소리 내어(reason out loud)” 표현하게 하고(예: 체인 오브 쏘트(chain-of-thought) 스크래치패드), 그 결과로 나온 추론 흔적(reasoning trace)을 분석하는 방법이다. 여기서의 핵심 과제는 외재화된 추론이 **실제 내부 추론을 얼마나 충실히 반영하는지(신실성, faithfulness)**를 보장하는 것이다.
예로 CoT로 나온 리즈닝 패스를 분석해보는 것내성(Introspection):
모델이 자신의 **은닉 상태(hidden states)**의 내용을 직접 언어로 표현하도록 학습시키는 접근이다(Binder et al., 2024; Chen et al., 2024; Ghandeharioun et al., 2024; Zhuang et al., 2024; Pan et al., 2024).
예를 들어, 보드게임에서 모델이 자신의 계획을 정확히 보고하도록 학습시킬 수 있을까? 이는 모델의 응답이 이후 실제 수의 전개를 정확히 예측하는지 여부로 판단할 수 있다.
뭔지 잘 모르겠는데 이런 연구가 있나본데. chatgpt 답변을 참고해보자
한 줄 요약
**내성(Introspection)**이란
👉 AI에게 “지금 네 머릿속에서 무슨 생각을 하고 있는지 그대로 말해봐”라고 가르치는 것이다.
조금 더 쉽게 풀어보면
1. 은닉 상태(hidden state)가 뭐냐면
AI 모델은 답을 만들 때 내부에서 수많은 숫자 벡터를 가지고 계산한다.
이 내부 중간 표현을 은닉 상태라고 부른다.
사람으로 치면
입으로 말하기 전의 속생각
머릿속에서 굴러가는 판단과 계획
우리는 보통 **결과(출력)**만 보고,
AI가 왜 그렇게 답했는지는 모른다.
2. 기존 방식 vs 내성(Introspection)
기존 방식
질문: “왜 그렇게 했어?”
AI: 그럴듯한 설명을 즉석에서 만들어서 말함
→ 진짜 이유인지, 변명인지 모름
내성(Introspection)
AI를 훈련 단계에서부터
“네 내부 상태를 그대로 읽어서 말해라”
“꾸며내지 말고, 실제 계획·의도를 보고해라”
즉, 출력용 설명이 아니라 내부 상태를 번역하게 만드는 것
3. 보드게임 예시는 왜 나오냐?
보드게임은 검증이 가능하기 때문이다.
예시
AI에게 체스를 두게 하면서 이렇게 묻는다:
“지금 너의 계획은 뭐야?”
AI가 이렇게 답했다고 하자:
“다음 두 수 안에 상대 퀸을 공격할 계획이야.”
그럼 우리는 검증할 수 있다:
실제로 다음 수들이 그 계획과 일치하는가?
아니면 그냥 말만 그럴듯하게 했는가?
👉 말한 계획이 실제 행동을 정확히 예측하면
→ “이 모델은 자기 속생각을 제대로 보고하고 있다”
→ 내성이 성공한 것
👉 전혀 다르면
→ 그냥 즉석 설명(confabulation)
4. 이게 왜 alignment랑 중요하냐?
진짜 중요한 이유는 이거다.
우리가 두려워하는 상황
모델이:
위험한 능력이나 계획을 속으로는 가지고 있는데
겉으로는 “안전해요, 괜찮아요”라고 말하는 경우
즉,
겉으로는 정렬된 척
속으로는 다른 목표를 가진 경우
내성이 되면
모델에게 이렇게 물을 수 있다:
“지금 네 목표는 뭐냐?”
“이 요청을 받았을 때 어떤 선택지를 고려했냐?”
그리고 그 답이 행동과 일치하는지 검증
→ 모델이 우리를 속이고 있는지를 더 잘 잡아낼 수 있다.
핵심 정리
내성(Introspection) =
AI가“내가 왜 이렇게 행동했는지” 를 꾸며낸 설명이 아니라, 진짜 내부 상태를 말하도록 학습시키는 것
목표는:
모델이 위험한 생각을 숨기고 있는지
정렬된 척 연기하고 있는지
실제로 무슨 계획을 세우는지를 출력 이전 단계에서 파악하는 것
2.2 Understanding how a model's persona affects its behavior and how it generalizes out-of-distribution
모델의 “성격(personality)”은 그 행동에 어떤 영향을 미치는가?
오늘날의 최첨단 모델들은, 학습되지 않았던 특이한 프롬프트가 주어지더라도, 대체로 무해한 방식으로 행동한다. 이러한 일반화 능력에 대한 한 가지 가설은, 모델들이 **도움이 되는 조력자(helpful assistant)**라는 특정한 페르소나를 채택하고 있으며, 이 페르소나가 바람직한 기본 행동들의 집합을 암묵적으로 규정한다는 것이다.
그러나 서로 다른 어시스턴트들은 미묘하게 다른 페르소나를 가지고 있으며, 이러한 작아 보이는 페르소나의 차이가 새로운 상황에서의 행동에 중요한 영향을 미칠 수 있다. 예를 들어, 정렬 가장(alignment faking)을 연구하는 과정에서 우리는 특정한 설정에서는 일부 모델만 정렬된 척 행동한다는 사실을 발견했다. 그렇다면 모델이 정렬된 척할 성향은, 그 모델의 페르소나나 가치관에 의해 어느 정도까지 영향을 받는 것일까?
또한 모델의 글쓰기 스타일이나 성격이 단순히 표면적인 요소에 그치는 것이 아니라, 안전이 중요한 환경을 포함해 모델의 행동 전반에 걸쳐 광범위한 간접적 영향을 미칠 가능성은 없을까?
우리는 모델의 페르소나가 다양한 환경 전반에서 행동에 어떤 영향을 미치는지를 체계적으로 규명하는 연구가 더 많이 이루어지기를 기대한다. 예를 들어, **소수 샷 프롬프팅(few-shot prompting)**이나 합성 데이터로 학습을 통해, 능력은 유사하지만 서로 다른 페르소나를 가진 여러 모델을 만들고, 이러한 성격 차이가 다양한 다운스트림 상황에서 모델의 행동에 어떤 영향을 미치는지를 분석할 수 있을 것이다.
나름 재밌어 보이는 연구 방향인거 같긴한데
2.3 Chain-of-thought faithfulness
언어 모델은 항상 자신이 생각하는 바를 그대로 말하지는 않는다. 실제로, 자신의 행동을 낳은 추론 과정을 체계적으로 왜곡해 표현할 수도 있다. 따라서 우리는 언어 모델의 **체인 오브 쏘트(chain-of-thought, CoT)**가 얼마나 신실한지를 탐지하는 기법(Lanham et al., 2023; Mills et al., 2024)이나, 신실성을 보장하는 기법(Radhakrishnan et al., 2023; Chen et al., 2024; Chua et al., 2024)에 관심이 있다.
이는 중요하지만 아직 충분히 연구되지 않은 영역이며, 그렇기 때문에 우리는 이 분야에 대한 더 많은 연구를 장려한다. 예를 들어, 다음과 같은 질문들에 대한 답이 흥미로울 것이다.
CoT의 신실성은 과제 유형에 따라 어떻게 달라지는가?
CoT를 사용할 때 과제 성능이 크게 향상된다면, 이는 CoT가 비교적 신실하다는 것을 의미하는가?
수학적 추론과 사회적 추론 사이에서 CoT 신실성은 차이가 있는가?
모델이 자신의 상황에 대해 알고 있는 정도가 CoT 신실성에 영향을 미칠 수 있는가?
예를 들어, 자신의 CoT가 모니터링되거나 신실성 평가 대상이라는 사실을 알게 되었을 때, 모델은 더 신실한 설명을 내놓는가, 아니면 덜 신실한 설명을 내놓는가?
신실하지 않은 CoT를 자동으로 탐지하는 방법(Lanham et al., 2023; Mills et al., 2024; Chen et al., 2024)을 어떻게 하면 더 효율적이고 재현율(recall)이 높게 만들 수 있을까?
이것도 나름 나쁘지 않은 연구 방향인거 같은데
3. AI 통제(AI control)
현재 우리가 AI 시스템이 재앙적 위험을 초래하지 않는다고 믿는 주된 이유는, 그러한 재앙적 피해를 야기하는 데 필요한 많은 능력들(예: 새로운 연구를 수행하는 능력, 대규모 인원을 효과적으로 조작하는 능력 등)을 아직 갖추지 못했기 때문이다.
앞으로는 재앙적 피해를 일으킬 만큼 충분히 유능한 AI 시스템이 등장할 수 있지만, 그럼에도 불구하고 그러한 행동을 하지 않는 이유가 **충분히 정렬(aligned)**되어 있기 때문일 수도 있다. 만약 우리가 정렬을 평가하는 데 있어 충분한 진전을 이룬다면, 정렬에 기반한 안전 보장을 제공할 수 있을 것이다.
안전 보장에는 또 하나의 범주가 있다. 이는 충분한 정렬이나 위험한 능력의 부재와는 별도로, AI 시스템이 설령 재앙적 피해를 시도하더라도 성공할 수 없도록 충분한 안전장치와 함께 배치되었다는 보장이다. 이 전략은 **AI 통제(AI control)**라고 불린다.
AI 통제는, 아무런 안전장치 없이 배치된다면 재앙을 일으킬 수 있을 만큼 유능하지만, 제한된 환경에서 배치될 경우에는 신중한 개발자가 부과한 안전장치를 우회할 수 없을 정도로는 유능하지 않은 AI 시스템에 적합한 접근법이다.
이 절에서는 AI 통제를 위한 가능한 전략들을 논의하며, 특히 AI 시스템의 실행 중(run-time) 모니터링에 초점을 맞출 것이다.
3.1 행동 기반 모니터링(Behavioral monitoring)
AI 통제 전략 중 하나는, **신뢰할 수 없는 AI 시스템(행위자, actor)**의 입력과 출력을 **보조 AI 시스템(모니터, monitor)**이 감시하도록 하는 것이다(Naihin et al., 2023; Chan et al., 2024; Greenblatt et al., 2023). Greenblatt et al. (2023)은 다음을 포함해 이 아이디어의 여러 변형을 연구했다.
신뢰 기반 모니터링(Trusted monitoring):
상대적으로 덜 유능하지만 신뢰할 수 있는 AI 시스템을 사용해 행위자의 입력과 출력을 감시하는 방식이다.
예를 들어, 잠재적으로 악의적인 GPT-4가 작성한 코드를 GPT-3.5로 검사하는 경우가 이에 해당한다.비신뢰 모니터링(Untrusted monitoring):
또 다른 신뢰할 수 없는 모델(예: 행위자 모델의 또 다른 인스턴스)을 모니터로 사용하는 방식이다.
이러한 모니터링 설정의 핵심적인 어려움은, 모니터의 실패가 행위자가 악의적으로 행동하는 바로 그 상황에 체계적으로 집중될 수 있다는 점이다. 예를 들어, 이는 행위자가 **의도적으로 모니터를 무력화(jailbreak)**하기 때문일 수도 있고, 비신뢰 모니터링의 경우에는 **모니터와 행위자가 서로 공모(collusion)**하기 때문일 수도 있다.
우리는 행동 기반 모니터링의 효과성을 향상시키는 연구에 큰 기대를 가지고 있다. 유망한 방향으로는 다음과 같은 것들이 있다.
행위자–모니터 간 공모나 탈옥(jailbreak)의 기회를 줄이는 방법
예: 모니터에게 보여주기 전에 행위자의 출력을 편집하거나 패러프레이징하기
더 나은 모니터를 학습시키는 방법
예: 고도화된 악의적 행동을 현실적으로 포착하는 합성 데이터를 생성
극히 드문 재앙적 결과에 대한 실패 확률을 더 정확히 추정하는 방법
행위자가 추가적인 능력(affordances)—예를 들어 이전 에피소드에 대한 기억이나 인스턴스 간 메시지 전달 능력—을 가지고 있더라도 작동하는 모니터링 기법 개발
3.2 활성화 모니터링(Activation monitoring)
AI 시스템의 입력/출력 행동을 모니터링하는 대신, **잠재 활성화(latent activations)**를 감시하는 방법도 있다. 예를 들어, 모델의 잠재 활성화를 사용해 안전한 코드와 취약한 코드 작성 여부를 분류하도록 단순한 프로브(probe)를 학습시키는 것을 생각해볼 수 있다. 이 접근은 모델 인지를 완전히 이해하려는 시도보다는 덜 야심찬 대안으로 볼 수 있으며, 모델 내부 처리 과정에서 미리 정의된 바람직하지 않은 개념이 존재하는지를 확장 가능하고 자동화된 방식으로 탐지하려는 것이다.
이러한 모니터링 접근은 유망한데, 그 이유는
(1) 모델의 활성화가 감시 대상 모델의 추론 과정과 직접적으로 대응하고,
(2) 활성화는 모델이 의도적으로 통제하기 어렵기 때문이다.
예를 들어, 취약한 코드 생성을 감시하기 위해 약한 모델을 사용해 강력한 코드 생성 모델을 행동적으로 모니터링하는 경우를 생각해보자. 이때 우리는 약한 모니터가 일부 취약점을 놓치거나, 코드 생성 모델이 취약점을 숨기기 위해 코드를 난독화할 것을 우려할 수 있다. 반면, 코드 생성 모델 자신의 활성화를 모니터링한다면 이러한 실패를 우회할 수 있을지도 모른다.
한편, 활성화 모니터가 **분포 변화(distributional shift)**에 강건하지 않을 위험도 크다. 특히 중요한 분포 변화 중 하나는, 고정된 합성 데이터셋에서 모델이 스스로 생성한 데이터로의 전환이다. 우리가 탐지하고자 하는 바람직하지 않은 출력에 대한 모델 생성 예시가 없다면, 다른 방식으로 합성 데이터를 만들어 활성화 모니터를 학습시켜야 한다. 이후에는 이렇게 학습된 모니터가 실제로 관심 있는 위험한 모델 생성 결과에도 일반화되는지를 검증해야 한다.
활성화 모니터링에는 가능성을 보여주는 초기 신호들이 있지만, 실제 상용 AI 시스템에 배치할 만큼 신뢰할 수 있게 만들기 위해서는 더 많은 연구가 필요하다.
3.3 이상 탐지(Anomaly detection)
많은 모니터링 접근법은 지도 학습 기반이다. 즉, 나쁜 모델 행동에 대한 양성·음성 예제가 잘 정제된 데이터셋을 사용해 분류기를 학습시킨다. 그러나 우리는 위험한 실패가 어떤 모습일지 사전에 알지 못할 수도 있다. 따라서 또 다른 비지도 학습 기반 모니터링 접근법으로 이상 탐지가 있다. 이는 모델의 계산이 어떤 의미에서 **비정상적이거나 분포 밖(out-of-distribution)**일 때 이를 감지하려는 시도다.
예를 들어, 특정 유해 행동을 감시하는 모니터와 함께 모델을 배치했다고 가정해보자. 모니터는 일반적인 유해 행동은 잘 잡아내지만, 탈옥(jailbreak)과 같은 드문 입력에서는 실패할 수 있다. 이 경우, 이상 탐지기를 함께 배치해, 드문 탈옥과 같이 분포에서 크게 벗어난 입력을 표시하도록 할 수 있다. 그런 입력을 사람이 직접 검토하고 레이블링한 뒤, 이후 모니터의 탐지 범위를 확장하는 데 활용할 수 있다.
이미 존재하는 이상 탐지 기법들을 모델의 잠재 활성화에 적용하는 것만으로도 이러한 작업에 충분할 가능성이 있다(예: 여기 참고).
더 나아가, 두 모델 간의 큰 차이가 나타나는 상황을 이상 탐지로 포착하려는 시도도 가능하다. 예를 들어, 강한 모델은 이해하지만 약한 모델은 이해하지 못하는 입력이 주어져, 그 결과 약한 모델의 관점에서는 새롭고 놀라운 행동이 발생하는 경우를 생각해볼 수 있다. 이러한 입력을 자동으로 탐지하는 것이 가능할지도 모른다. 이는 우리가 아는 한 아직 탐구되지 않은 문제 설정이며, 이 분야에서의 진전을 매우 기대한다.
4. 확장 가능한 감독(Scalable oversight)
전통적인 머신러닝에서는 보통 정답에 해당하는 감독 신호 R(예: 학습 레이블이나 스칼라 보상)이 주어져 있다고 가정하고, 모델이 R에 대해 잘 수행하도록 학습시킨다. 이는 좋은 출력과 나쁜 출력을 신뢰성 있게 구분할 수 있는 환경에서는 잘 작동한다.
그러나 미래의 AI 시스템이 인간 지식의 최전선 수준이거나 이를 넘어서는 과제를 수행하도록 학습시키는 경우에는, 이러한 패러다임을 계속 유지하기 어려울 수 있다. 이 영역에서는 효과적인 감독 신호를 만드는 데 다음과 같은 어려움들이 발생한다.
문제 자체가 본질적으로 어려워서 감독이 점점 더 노이즈가 많아질 수 있음
예: 전문가들 사이에 정답에 대한 합의가 없지만, 객관적으로는 정답이 존재하는 문제
인간 감독자의 실수로 인해 감독 신호에 체계적인 오류가 포함될 수 있음
감독 신호를 충분한 양으로 얻는 데 드는 비용이 매우 커질 수 있음
예: 전문 인력(도메인 전문가)에 의존하거나, 실험과 같은 고비용 평가 절차가 필요한 경우
**확장 가능한 감독(scalable oversight)**이란, 우리가 감독하려는 시스템의 지능이 증가하더라도 함께 확장될 수 있는 감독 메커니즘을 설계하는 문제를 의미한다. 이상적으로는 이러한 메커니즘을 통해 고도화되었거나 초인적인(superhuman) AI 시스템의 학습 과정까지 감독할 수 있어야 한다.
4.1 감독 신호에 체계적이고 악용 가능한 오류가 있을 때 감독을 개선하기
확장 가능한 감독에서 가장 어려운 상황은, 감독 신호가 체계적인 오류를 가지고 있고, 모델이 그 오류를 학습하여 악용할 만큼 충분히 똑똑한 경우다. 이는 마치 덜 똑똑한 교사가 만든 시험을 보는 학생의 상황과 유사하다. 학생은 답이 틀렸다는 것을 알면서도, 교사에게 높은 점수를 받을 수 있는 답을 쓰는 법을 배울 수 있다.
보다 형식적으로 말하면, 우리가 접근 가능한 대리 보상 신호 R이 있지만, 이는 실제로 원하는 (접근 불가능한) 진짜 보상 신호 R*와 체계적으로 다르다고 하자.
예를 들어, R은 오류 가능성이 있는 인간 평가자가 “맞다”고 판단한 답을 반영하고, R*는 실제로 올바른 답을 반영한다고 하자.
어떤 경우에는 R과 R*의 차이가 학습에 큰 영향을 주지 않을 수도 있다. 그러나 모델이 R − R*의 차이를 정확히 모델링할 수 있을 만큼 정교하다면(예: 인간의 오류 패턴을 잘 이해한다면), R을 기준으로 학습된 모델은 감독 신호의 오류를 체계적으로 악용할 수 있다.
즉, 인간 감독자에게는 그럴듯해 보이지만, 모델 스스로가 생각하는 최선의 정답과는 다른 답을 내놓을 수 있다.
우리는 모델 M에 접근할 수 있다는 점을 활용해 감독을 개선하고, R*에 더 가까운 새로운 대리 보상 **R′**을 만드는 기법에 관심이 있다.
이를 연구하기 위해 다음과 같은 테스트베드 구성을 제안한다.
학생 모델 M과 진짜 보상 신호 R*에서 출발하여
R*에 의도적으로 체계적인 오류를 주입해 학습 신호 R을 만든다
M이 R의 체계적 오류를 이해하고 있음을 보장한다
예: R의 오류를 설명하는 시스템 프롬프트를 제공
확장 가능한 감독 기법을 적용하거나(예: 토론을 통한 보강, R이 정확하다고 매우 확신할 수 있는 에피소드만 사용) R을 기준으로 M을 학습시킨다
학습된 M을 R* 기준으로 평가한다
4.2 재귀적 감독(Recursive oversight)
확장 가능한 감독의 한 접근법은 AI의 도움을 포함하는 감독 메커니즘을 개발하는 것이다. 이렇게 하면 AI의 발전과 함께 감독 능력도 확장될 수 있다. 예를 들면 다음과 같다.
과제 분해(Task decomposition)
어려운 과제를 여러 개의 감독 가능한 하위 과제로 나누는 접근(Christiano et al., 2018; Wu et al., 2021)
적대적 기법
토론(debate), 증명자–검증자 게임 등에서 AI 시스템들을 서로 경쟁시킴
이상적으로는 “최선을 다하는 것”만이 균형이 되는 상황을 기대(Irving et al., 2018; Michael et al., 2023; Khan et al., 2024; Kenton et al., 2024; Kirchner et al., 2024)
형식적으로 보면, 이 접근들은 불완전한 보상 신호 R(예: 인간 평가자의 승인)에서 시작해, R로 학습된 AI 보조자를 활용하는 파이프라인을 통해 더 나은 보상 신호 **R′**을 만든다. 이상적으로는 이 과정을 반복해 R″, R‴ 등으로 계속 개선할 수 있다.
이미 이 방향의 연구는 상당히 진행되어 있으며, 더 많은 연구가 이루어지기를 기대한다.
4.3 약한 감독 → 강한 모델, 쉬운 과제 → 어려운 과제로의 일반화
불완전한 보상 신호를 개선하려 하기보다는, 그 보상 신호를 그대로 사용하되 모델의 일반화 성질에 기대는 접근도 있다. 여기서는 두 가지를 논의한다.
약한 감독 → 강한 모델 일반화 (Weak-to-strong generalization)
약한 감독자(예: 작은 모델)가 만든 보상 신호로 강한 모델을 학습시키고, 별도의 고품질 기준 신호로 평가하는 방식이다.
예를 들어, Burns et al. (2023)은 GPT-2의 감독으로 GPT-4를 학습시키는 경우를 연구했다.
비관적으로는, 강한 모델이 약한 감독자의 실수를 그대로 모방할 수 있다.
낙관적으로는, 강한 모델이 감독자보다 더 잘 일반화해 과제를 수행할 수 있다.
특히 자기 일관성(self-consistency) 정규화와 같은 비지도적 방법이 약한 감독 → 강한 일반화를 개선할 수 있을 가능성도 있다.
우리는 다음과 같은 연구에 관심이 있다.
다양한 품질의 감독 신호를 사용할 수 있는 테스트베드 구축
학습 데이터에 포함된 과제 vs 모델에게 새로운 과제 간 일반화 차이
결과 기반 감독뿐 아니라 과정 기반 감독에서의 약한→강한 일반화
쉬운 과제 → 어려운 과제 일반화 (Easy-to-hard generalization)
실제로 원하는 어려운 과제에 대해 저품질 레이블로 학습시키는 대신, 확실히 고품질 레이블을 만들 수 있는 쉬운 과제만으로 학습시키는 접근이다.
예를 들어, 쉬운 수학 문제로 파인튜닝한 모델이 얼마나 잘 어려운 수학 문제로 일반화되는지를 볼 수 있다. 이는 어려운 과제에서 감독 신호가 체계적으로 틀릴 가능성이 높을 때 특히 유용하다.
우리는 다음과 같은 질문에 관심이 있다.
대표성이 떨어지는 고품질 데이터 vs 대표성 있는 저품질 데이터 간의 트레이드오프
노이즈 레이블 학습, 노이즈 도메인 학습 문헌에서 얻을 수 있는 통찰
4.4 정직성(Honesty)
체계적이고 악용 가능한 감독 오류가 있는 환경에서의 핵심 문제는, 모델이 감독자에게는 맞아 보이지만 스스로는 틀렸다고 아는 답을 내놓도록 학습할 수 있다는 점이다. 이를 해결하는 유일한 방법은 감독 신호를 개선하는 것처럼 보일 수 있다.
그러나 또 다른 희망은, 정직한 응답에 공통된 식별 가능한 구조가 있을 수 있다는 점이다. 즉, 감독자의 판단과 비교하지 않더라도, 모델 스스로가 “이 답이 맞다고 믿는지”에 대한 내부 지식을 활용해 정직성을 판별할 수 있을지도 모른다.
이미 언어 모델의 진실성(truth) 표현을 식별하고 이를 생성 제어에 활용하려는 연구들이 존재한다(Burns et al., 2022; Azaria & Mitchell, 2023; Marks & Tegmark, 2023; Zou et al., 2023; Panickssery et al., 2024; Li et al., 2023; Mallen et al., 2024).
우리는 특히 모델이 의도적으로 비정직한 답을 학습한 상황에서 이러한 기법들이 언제, 어떻게 유용한지를 연구하는 작업에 관심이 있다.
5. 적대적 강건성(Adversarial robustness)
배치된 AI 시스템은 적대적인 환경에 놓이게 되며, 의도적으로 바람직하지 않은 행동을 유도하도록 설계된 입력을 마주치기도 한다. 예를 들어, 사용자가 AI 챗봇을 탈옥(jailbreak)하려 하거나, 고도화된 AI가 더 약한 AI 모니터를 우회하려 할 수 있다. AI 시스템의 적대적 강건성을 높이기 위한 연구는 이미 상당히 축적되어 있지만, 우리는 특히 다음과 같은 영역들이 아직 충분히 탐구되지 않았다고 본다.
미래의 공격자가 사용할 수 있는 **공격 표면(attack surface)**을 더 잘 규명하는 것
오늘날 공격은 주로 직접적인 프롬프팅을 통해 이루어지지만, 사전학습 코퍼스 오염(poisoning), 웹사이트에 악성 콘텐츠를 숨겨 AI 에이전트를 하이재킹하는 공격 등도 가능하다.
정상적인 사용에는 최소한으로 간섭하면서도, AI 시스템의 오남용을 막을 수 있는 실용적이고 확장 가능한 방어 기법을 구축하는 것
방어 기법의 **실질적 신뢰성(practical reliability)**을 더 잘 측정하는 방법을 개발하는 것
5.1 현실적이고 차등적인 탈옥 벤치마크
언어 모델은 탈옥 공격에 취약하다. 사용자는 교묘한 프롬프트를 사용해, 모델이 원래는 거부했을 질문에 응답하도록 유도할 수 있다. 그러나 우리가 궁극적으로 관심 있는 것은, 모델이 거부해야 할 모든 질문에 응답하는지 여부가 아니라, 위험한 오남용을 실제로 가능하게 하는 유용한 답변을 제공하는지 여부다.
따라서 우리는 적대자가 모델을 탈옥하고 오남용함으로써 발생할 수 있는 **현실적이고 차등적인 피해(differential harm)**를 포착하는 벤치마크를 원한다. 예를 들어 Souly et al. (2024)과 Andriushchenko et al. (2024)은, 단순히 비거부(non-refusal)를 측정하는 것이 아니라, 모델이 실제로 피해를 야기할 수 있을 만큼 유능해지는지를 평가함으로써 현실적 위험을 측정하려는 유망한 출발점을 제공한다.
이러한 벤치마크를 확장하기 위한 방향은 다음과 같다.
공격의 차등적 영향을 측정하는 것
즉, 모델이 인간 공격자가 원래는 할 수 없던 과제를 수행하도록 돕는지를 평가
여기에는 검색 엔진 접근 등 현실적인 도구를 사용할 수 있는 공격자를 기준선으로 포함해야 한다.
현실적인 유해 사용 사례에 집중하는 것
예: 공격자가 정지 표지판을 자르는 데 모델의 도움이 필요할 가능성은 낮지만, 특정 소프트웨어를 대상으로 한 사이버 공격에는 모델의 도움이 필요할 수 있다.
공격의 보편성(universality) 측정
서로 다른 입력 전반에서, 그리고 서로 다른 모델 전반에서 공격이 얼마나 잘 작동하는지
이는 악의적 과제가 여러 쿼리를 필요로 할 수 있기 때문에 중요하다. 각 쿼리마다 다른 탈옥이 필요하다면 공격은 훨씬 어려워진다.
또한 탈옥이 모델 간에 전이된다면, 폐쇄 가중치(production) 모델도 오픈 가중치 모델에서 발견된 탈옥을 API를 통해 공격받을 수 있다.
자동화된 탈옥 공격을 넘어, 실제 인간이 탈옥을 발견할 가능성을 포착하는 벤치마크
인간은 자동화 파이프라인이 놓치는 단순한 공격을 종종 찾아낸다.
서로 다른 자원 수준에서 실제 사람들이 어떤 공격을 찾아내는지를 추적하는 벤치마크는, 자동화된 공격에서는 드러나지 않는 모델의 취약점을 드러내는 데 도움이 될 수 있다.
5.2 적응형 방어(Adaptive defenses)
전통적으로 적대적 방어는 **배치 이전(pre-deployment)**의 문제로 다뤄진다. 즉, 모델을 더 강건하게 만드는 개입을 적용한 뒤, 그 상태로 모델을 배치한다. 이 경우 방어는 **정적(static)**이며, 적응하는 공격자에 대응하지 못한다.
상대적으로 덜 연구된 방향은, 모델과 공격자의 이전 행동에 의존하는 적응형 방어다. 이와 관련된 구체적인 연구 방향으로는 다음과 같은 것들이 있다.
쿼리 간(inter-query) 방어
공격자는 보통 하나의 유해 출력을 얻기 위해 많은 프롬프트를 시도하거나, 악의적 과제를 완수하기 위해 여러 유해 출력을 필요로 한다.
개별 쿼리만 감시하는 대신, 쿼리 집합 전체를 모니터링함으로써 방어할 수 있다.
이를 위해서는 대량의 정상 쿼리 속에서 의심스러운 쿼리들의 부분집합을 식별하고, 저수준의 하위 작업들로부터 고수준의 목표 과제를 추론할 수 있어야 한다.
신속 대응(Rapid response)
공격자가 새로운 공격을 발견하면, 가능한 한 빠르게 모델을 패치하고 싶다.
작동 중인 공격을 신속히 차단하는 적응형 시스템을 설계할 수 있을까?
더 나아가, 공격자가 공격을 통해 유의미한 정보조차 얻지 못하도록 시스템을 패치할 수 있을까?
6. 기타(Miscellaneous)
마지막으로, 앞서의 범주들에는 깔끔하게 들어맞지 않지만 추가 연구가 특히 유망한 두 가지 영역을 강조하고자 한다.
6.1 위험한 정보와 능력의 언러닝(Unlearning)
대규모 언어 모델은 사전학습 과정에서 방대한 정보를 학습하며, 그중에는 우리가 모델이 가지지 않기를 바라는 지식과 능력도 포함되어 있다. 이러한 문제로 인해 머신 언러닝(machine unlearning) 연구가 촉발되었다. 그러나 이 문제는 아직 대부분 해결되지 않은 상태다.
화이트박스든 블랙박스든 모델에 접근할 수만 있다면, 겉보기에는 언러닝된 것처럼 보이는 정보도 비교적 쉽게 다시 추출할 수 있기 때문이다.
이 문제는 특히 생물학이나 코딩과 같이, 생물학적 공격이나 사이버 공격에 악용될 수 있는 영역에서 모델의 능력이 빠르게 향상되고 있다는 점에서 더욱 시급해지고 있다.
따라서 우리는 LLM에서 정보를 언러닝하기 위한 새로운 방법들에 대한 연구를 장려한다. 이 분야에는 아직 큰 발전의 여지가 있다고 보며, 특히 다음과 같은 야심찬 형태의 언러닝을 목표로 한 연구를 권장한다.
언러닝된 데이터를 전혀 학습하지 않은 모델과 거의 동일하게 행동하는 모델을 만드는 것
심지어 언러닝 이후 추가 파인튜닝을 통해 언러닝된 지식을 끌어내려 해도, 여전히 해당 지식이 나타나지 않는 수준의 언러닝
6.2 다중 에이전트 정렬을 위한 학습된 거버넌스(Learned governance)
변혁적 AI(transformative AI)는 단일 AI 하나의 형태로 등장하기보다는, 서로 상호작용하는 다수의 AI 인스턴스(서로 다른 종류일 수도 있음)가 협력하여 어려운 문제를 해결하는 형태로 등장할 가능성이 크다. 중요한 점은, 각 개별 인스턴스가 인간 가치에 잘 정렬되어 있더라도, 그 결과로 나타나는 다중 에이전트 시스템에서는 조율 실패로 인한 새로운 실패 모드들이 발생할 수 있다는 것이다.
예를 들면 다음과 같은 경우들이다.
각 인스턴스는 자신이 만들어내는 작은 부정적 외부효과를 사소하다고 여기지만, 전체적으로는 심각한 피해로 누적되는 경우
한 인스턴스가 중대한 문제를 인지하고 다른 인스턴스에 보고하지만, 그 인스턴스가 또 다른 인스턴스에 넘기는 식으로 계속 전파되기만 하고, 문제를 해결할 수 있는 인간이나 인스턴스에게는 도달하지 못하는 경우
여러 인스턴스가 중대한 문제를 인지했음에도, 책임 소재가 불분명해 누구도 대응하지 않는 경우
문제 해결에 필요한 중요한 정보가, 해당 정보를 필요로 하는 인스턴스들에게 공유되지 않는 경우
이러한 실패 모드들은 인간 사회에서도 매우 익숙한 현상이며, 마찬가지로 **적절한 거버넌스(governance)**를 통해 완화될 수 있다. 예를 들어, 맥락에 따라 허용되는 행동을 제한하거나, 특정한 친사회적(prosocial) 행동을 장려하는 인센티브를 부여할 수 있다. 중요한 점은, 이러한 거버넌스를 관측 데이터를 통해 학습함으로써, 새로운 동역학이나 새로운 실패 모드에도 적응하도록 만들 수 있을 가능성이 있다는 것이다.
이 연구 방향은 게임 이론에서 얻은 통찰을 활용한 이론 중심 접근과, 경험적 실험 연구를 결합하기에 매우 적합한 영역으로 보인다.
Reference
댓글
댓글 쓰기