Loss 관련
Loss 관련해서는 이전에 이미 내용은 숙지했지만 한 번 정리
Pairwise loss
- 참고: https://wwiiiii.tistory.com/entry/Pairwise-Triplet-Loss
- 기본: Pairwise Hinge (margin ranking)
- loss_val = max(0, bad_reward-good_reward+alpha)
- 이렇게 good_reward가 bad_reward보다 좋아지도록 한다. 근데 alpha보다 커지면, 그만둔다. 즉 적당히 좋게 하는 느낌
- 다양한 변형식이 있는것 같다.
- 참고: https://pykeen.readthedocs.io/en/stable/reference/losses.html
- chatgpt에서 쓰는 방법인 것으로 추측되는 것은 Pairwise Logistic 이다.
- probs = 1/(1+exp(bad_reward-good_reward))
- log_probs = -log(1+exp(bad_reward-good_reward))
- loss_val = log(1+exp(bad_reward-good_reward))
댓글
댓글 쓰기