본문 바로가기

Deep Learning/Memo or etc.

(6)
논문 수정에 기여해버렸다 ㅎ Medusa 논문을 보고 있었는데 Homepage Tianle Cai*, Yuhong Li*, Zhengyang Geng, Hongwu Peng, Tri Dao (* Equal contribution) sites.google.com 이 Heads warmup 부분이 아무리 생각해도 이해가 안 되었다. First stage에서 backbone을 훈련하라고 나와있는데, 내가 이해가 안 돼서 참조 논문까지 다 봤다. 근데 참조 논문을 보고 내가 내린 결론은 backbone이 아니라 medusa head를 먼저 훈련해야 된다는 것이었다. 그래서 github에 직접 물어봤는데 한글버전 다음 버전에서 수정한다고 한다 ㅎ 뭔가 기분이 좋네... ㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎ
Transformer Tutorial 서당개도 이해할 수 있는 transformer 설명을 발견했다. 영어로 된 글이지만 둘 다 크롬 사이트 번역으로 읽어도 하나도 안 어색하고 부드럽게 읽어지니까 부담 ㄴㄴ. The illustrated transformer The Illustrated Transformer Discussions: Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments) Translations: Arabic, Chinese (Simplified) 1, Chinese (Simplified) 2, French 1, French 2, Italian, Japanese, Korean, Persian, Russian, Spanish 1, S..
수학 테일러 급수 테일러 급수의 이해와 활용 (Taylor series) 테일러 급수(Taylor series)에 대한 내용은 이미 인터넷에 좋은 글들이 많습니다. 그럼에도 이렇게 다시 글을 쓰는 이유는 스스로도 애매한 부분이 많기 때문입니다. 그래서 공부하는 셈치고 관련 darkpgmr.tistory.com 헤시안 행렬 Hessian matrix(헤시안 행렬) · Seongkyun Han's blog Hessian matrix(헤시안 행렬) 18 Mar 2019 | Hessian matrix 헤시안 행렬 Hessian matrix 어떠한 다변수 함수 $f(x_{1}, x_{2}, …, x_{n})$ 에 대하여 $f$ 의 Hessian matrix는 아래와 같다. Hessian matrix는 함수의 이차미분(..
Language Model 자료 모음 LLaMA [리뷰] Meta AI의 Small Gaint Model: LLaMA(Large Language Model Meta AI) ChatGPT의 열풍으로 인해 대중들은 OpenAI와 MS가 Generative AI의 핵심기업으로 인식하는 착시 현상을 겪고 있다. 하지만 최근까지 AI 발전에 가장 많이 공헌한 기업으로 Google과 Meta을 꼽을 수 있다. moon-walker.medium.com LIMA [리뷰] Meta AI의 논문 LIMA(Less Is More for Alignment):결국 LLM의 Pre-training이 가장 중요하다? 최근 Meta AI는 CMU, USC, Tel Aviv Univ.의 researcher들과 함께 “LIMA: Less Is More for Alignme..
메모 - score based model log 취하는 이유 = 곱으로 이루어진 수식을 덧셈뺄셈으로 바꾸려고, 기하급수적으로 커지는 숫자를 smooth하게 표현 미분 하는 이유 = 상황에 따라 여러가지 이유가 있지만 상수항을 없애기 위함도 있음. e.g.)로그미분으로 Zθ 없앰 score = 확률분포의 어느 지점에서의 gradient Diffusion, score-based model에서 많은 step을 사용하는 이유 = gradient를 따라가야 되는데 경사하강법에서 학습률이 너무 크면 잘못된 곳으로 갈 수 있는 것 처럼 조금조금씩 움직여서 정답에 최대한 근사하기 위함 많은 step을 최대한 건너뛰면서 근사오차를 최대한 줄이기 위해 SDE, ODE solver를 사용하는 것
Diffusion Model 공부 자료 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/ (Diffusion의 바이블) What are Diffusion Models? [Updated on 2021-09-19: Highly recommend this blog post on score-based generative modeling by Yang Song (author of several key papers in the references)]. So far, I’ve written about three types of generative models, GAN, VAE, and Flow-based models. They lilianweng.github.io https://www.you..