파라미터 초기화, Initialization


  • 딥러닝 파라미터 초기화로 많이 사용되는 것은 다음이 있는 것 같다.
    • zero initialization
    • random distribution initialization
    • He initialization
    • Xavier initialization
  • 실제 코딩 구현을할 때 많이 쓰이는 초기화는 라이브러리화 되어 있다.
  • He와 Xavier만 좀 살펴보자면 입력과 출력의 분포를 같게 하려는 개념을 포함하고 있다.
  • 물론 가장 이상적인 상황으로는 미린 back-bone 네트워크가 있다면 이를 이용하는 것이다.
    • 이 경우는 물론 같은 구조를 가지는 모델을 쓰는 경우이다.
    • 혹은 경량화할 때 기법처럼 설계한 모델과 backbone이 구조가 살짝 다르더라도 같은 크기를 가지는 matrix들은 backbone 모델 matrix으로 초기화 해볼 수도 있겠다. (PKD 경량화 같은 느낌)
    • 일반적으로 새롭게 학습하려고 한다면, 사용한 라이브러이에서 제공하는 초기화 중에서 어느 하나를 선택하면 된다.

댓글