Audio-017, Kimi-Audio Technical Report, Preprint 2025
다음 답변은 Kimi-Audio Technical Report 기반으로 정리했다. 1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 결론부터 말하면 맞다. Kimi-Audio는 텍스트와 오디오를 함께 다루는 unified audio foundation model이다. 논문에서 모델 목표를 다음처럼 설명한다: audio understanding audio generation speech conversation audio-to-text chat 을 하나의 모델에서 수행한다고 명시한다. 또 architecture 설명에서도: 입력: audio + text 출력: audio token + text token 을 동시에 처리한다고 설명한다. 모델 입력/출력은 무엇인가? 입력 입력은 두 종류다. 텍스트 토큰 오디오 표현 discrete semantic audio token continuous acoustic feature (Whisper feature) 즉 오디오는 단순 waveform을 직접 넣는 게 아니라: semantic token continuous feature 로 변환 후 입력한다. 출력 출력은 두 갈래(head)로 나뉜다. text head text token autoregressive generation audio head discrete semantic audio token generation 그리고 생성된 audio token을 detokenizer가 waveform으로 복원한다. 즉 모델은: text→text audio→text text→audio audio→audio 모두 가능하도록 설계됐다. 2. 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 했나? 부분적으로 맞다. 정확히 말하면: 텍스트: discrete token 오디오 출력: discrete semantic token 오디오 입력: discrete token + continuous feature 조합이다. 즉 “모든 입력을 d...