NL-346, On the Parameterization and Initialization of Diagonal State Space Models (S4D), NeurIPS 2026
S4D를 처음부터 이해하기: “상태 업데이트”에서 “Convolution”까지 이번 글은 S4D: On the Parameterization and Initialization of Diagonal State Space Models 논문을 처음 보는 사람을 위한 설명이다. 수식이 많이 나오지만, 목표는 하나다. S4D는 긴 시퀀스를 잘 처리하기 위해, 입력을 내부 기억에 저장하고, 그 기억을 효율적인 convolution kernel로 바꿔 계산하는 모델이다. 이 글에서는 특히 네가 헷갈려 했던 부분들을 중심으로 설명한다. (x'(t))가 무엇인지 왜 갑자기 (y)가 (u)의 함수처럼 보이는지 (K(t)=Ce^{tA}B)가 어디서 나오는지 S4D는 기존 S4에서 무엇을 단순화한 것인지 논문은 S4D를 기존 S4보다 훨씬 단순한 diagonal SSM으로 만들면서도, 성능은 거의 유지할 수 있음을 보인다. 1. S4D가 풀고 싶은 문제 우리가 다루고 싶은 데이터는 보통 시퀀스 다. 예를 들어: 문장: [나는, 오늘, 학교에, 갔다] 오디오: [0.01, 0.03, -0.02, ...] 주가: [100, 101, 99, 102, ...] 이미지: 픽셀을 한 줄로 펼친 sequence 이런 데이터의 핵심은 앞에서 나온 정보가 뒤에 영향을 줄 수 있다 는 점이다. 예를 들어 문장에서: "철수는 영희에게 책을 빌려주었다. 그는 ..." 여기서 “그”가 누구인지 알기 위해서는 앞부분 기억이 필요하다. 오디오도 마찬가지다. 지금 소리 하나만 보고는 단어를 알 수 없다. 앞뒤의 긴 패턴을 같이 봐야 한다. 그래서 S4D는 이런 일을 하려 한다. 입력 시퀀스 u ↓ 과거 정보를 잘 기억 ↓ 출력 시퀀스 y 생성 2. State Space Model이란? S4D는 State Space Model , 줄여서 SSM 계열 모델이다. SSM은 아주 단순하게 말하면: 입력이 들어오면 내부 기억을 업데이트하고, ...