Medusa 논문을 보고 있었는데
이 Heads warmup 부분이 아무리 생각해도 이해가 안 되었다.
First stage에서 backbone을 훈련하라고 나와있는데, 내가 이해가 안 돼서 참조 논문까지 다 봤다.
근데 참조 논문을 보고 내가 내린 결론은 backbone이 아니라 medusa head를 먼저 훈련해야 된다는 것이었다.
그래서 github에 직접 물어봤는데
한글버전
다음 버전에서 수정한다고 한다 ㅎ
뭔가 기분이 좋네... ㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎ
'Deep Learning > Memo or etc.' 카테고리의 다른 글
Transformer Tutorial (1) | 2024.01.03 |
---|---|
수학 (2) | 2023.10.06 |
Language Model 자료 모음 (0) | 2023.10.06 |
메모 - score based model (0) | 2023.01.23 |
Diffusion Model 공부 자료 (0) | 2022.08.14 |