NL-287, CV, Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding, CVPR 2024
Abstract
대규모 비전-언어 모델(Large Vision-Language Models, LVLM)은 시각 인식과 언어 이해를 결합하여 일관되면서도 맥락에 맞는 콘텐츠를 생성하며 상당한 발전을 이루었다. 그러나 이러한 성공에도 불구하고, LVLM은 이미지에 존재하지 않는 객체를 포함하여 그럴듯하지만 잘못된 출력을 생성하는 "객체 환각(object hallucination)" 문제를 여전히 겪고 있다.
이 문제를 해결하기 위해, 본 연구에서는 원본 이미지 입력과 왜곡된 이미지 입력에서 도출된 출력 분포를 대조(contrast)하는 간단하고 추가 훈련이 필요 없는 방법인 "시각적 대조 디코딩(Visual Contrastive Decoding, VCD)"을 제안한다. 제안된 VCD는 객체 환각의 두 가지 주요 원인인 통계적 편향(statistical bias)과 단일 모드 선험 지식(unimodal priors)에 대한 과도한 의존성을 효과적으로 감소시킨다. 이를 통해 생성된 콘텐츠가 시각적 입력에 더 밀접하게 연관되도록 보장하여 맥락적으로 정확한 출력을 얻을 수 있게 한다.
우리의 실험 결과에 따르면, VCD는 추가 훈련이나 외부 도구의 사용 없이 여러 LVLM 계열에서 객체 환각 문제를 현저하게 완화시킨다. 또한 객체 환각 완화를 넘어 일반적인 LVLM 벤치마크에서도 우수한 성능을 나타내어, 이 방법의 폭넓은 적용 가능성을 입증하였다. 본 연구에서 사용한 코드는 공개될 예정이다.
Reference
댓글
댓글 쓰기