clovaai/overhaul-distillation

loss 계산하는 과정에서 1000 으로 나누어주는 부분에 대해서 질문드립니다.

cbpark-nota opened this issue · 2 comments

안녕하세요, 코드를 보다 궁금하여 질문을 남깁니다.

loss = loss_CE + loss_distill.sum() / batch_size / 1000

위 부분에서 왜 loss 를 1000 으로 나누어주는지 알 수 있을까요?
논문에서 제가 놓친 부분이 있는것 같습니다.
감사합니다.

bhheo commented

안녕하세요.

논문의 Equation (6) 의 parameter alpha의 값이 (1/1000) 이므로 / 1000 이 들어갑니다.
image

답변 감사합니다.