log 취하는 이유 = 곱으로 이루어진 수식을 덧셈뺄셈으로 바꾸려고, 기하급수적으로 커지는 숫자를 smooth하게 표현
미분 하는 이유 = 상황에 따라 여러가지 이유가 있지만 상수항을 없애기 위함도 있음.
e.g.)로그미분으로 Zθ 없앰
score = 확률분포의 어느 지점에서의 gradient
Diffusion, score-based model에서 많은 step을 사용하는 이유 = gradient를 따라가야 되는데 경사하강법에서 학습률이 너무 크면 잘못된 곳으로 갈 수 있는 것 처럼 조금조금씩 움직여서 정답에 최대한 근사하기 위함
많은 step을 최대한 건너뛰면서 근사오차를 최대한 줄이기 위해 SDE, ODE solver를 사용하는 것
'Deep Learning > Memo or etc.' 카테고리의 다른 글
논문 수정에 기여해버렸다 ㅎ (3) | 2024.01.25 |
---|---|
Transformer Tutorial (1) | 2024.01.03 |
수학 (2) | 2023.10.06 |
Language Model 자료 모음 (0) | 2023.10.06 |
Diffusion Model 공부 자료 (0) | 2022.08.14 |