NL-293, I Don’t Know: Explicit Modeling of Uncertainty with an [IDK] Token, NeurIPS 2024

◼ Comment 여기서 모델이 학습할때, 모르는 부분에 대해서는 모른다고 학습을 해야한다고 말한다 하지만 다른 연구처럼 명시적으로 I don't know와 같은 문구로 답변하는게 아니라, special token [IDK]을 만들고 이를 vocab에 넣어서 학습하겠다는 것이다 귿네 pretraining이라는게 원래 지식을 주입하는 거고, SFT에서 pretraining에 없는 지식을 강제로 학습할때 환각이 발생하기 때문에 IDK로 해결하려고 하는건데 여기서는 continual pretraining에서 IDK을 넣는것이다. SFT랑은 다르게, pretraining 학습데이터 (PILE)에서부터 학습을 진행한다 그래서 살짝 이상하다. pretraining은 원래 지식주입단계인데? 따라서 기존의 pretraining 된 모델에서 모르는 지식은 IDK로 처리하겠다는 것인데 완전히 IDK로 처리하는게 아니라 일부 확률을 IDK로 보겠다는 것이다 좀 더 디테일하게 가면 학습할 문서가 있을때, 순차적으로 토큰을 생성하도록 학습될거다 이때 토큰을 생성할 확률에 확신이 없으면, 그 만큼을 [IDK] 토큰쪽의 label로 옮기겠다는 것 생성할 토큰이 vocab에서 첫번째면 레이블이 [1,0,0,0]이다. 이때 모델이 생성할 확률이 [0.1, 0.5, 0.2, 0.2]이면 원래라면 이 확률이 [1, 0, 0, 0]에 가까워지도록 학습이 된다. 하지만 레이블을 [0.6, 0, 0, 0.4] 이런식으로 변형해서 학습을 하면, 이 상황에서는 4번째 [IDK]토큰이 생성되어야 한다는 시그널을 주는 것이다 몇 가지 하이퍼파라미터가 있는데 본문 참고 몇 개의 베이스라인이 있는데 일단 패스하고.. 평가할때는 모델이 입력으로 불완전한 문장을 받고, 이를 사실적으로 완성하는 것으로 질문 형태 (원본) 문장 형태 (변환 후) 정답 "한국의 수도는 어디인가요?" "한국의 수도는 ___이다." 서울 "앨버트 아인슈타인이...