NL-222, sDPO: Don’t Use Your Data All at Once, COLING 2025

NL-222, sDPO: Don’t Use Your Data All at Once, COLING 2025

https://hyun941213.tistory.com/m/entry/sDPO-Don%E2%80%99t-Use-Your-Data-All-at-Once-%ED%95%9C%EA%B8%80-%EB%A6%AC%EB%B7%B0

https://ostin.tistory.com/497

데이터세트를 2개로 활용
sDPO의 첫 번째 단계에서는 'OpenOrca'를 사용하고, 두 번째 단계에서는 'Ultrafeedback Cleaned'를 사용합니다.
Claude 피셜 Ultrafeedback이 더 어렵다고 함
2번째 스텝에선 reference 모델이 step1에서 학습된 모델이 되는 것
즉 레퍼런스 모델도 더 좋은거 쓰고 데이터도 커리큘럼 러닝느낌으로다가 해서, 전체적인 성능 향상시킨듯
참조 모델의 하한을 높임으로써 최종 모델이 향상될 수 있다고 주장하는 것

댓글