본문 바로가기

논문 리뷰/Concept

(5)

Rotary Position Embedding (RoPE) Rotary Position Embedding in RoFormer 참고: 영상: https://www.youtube.com/watch?app=desktop&v=tRe2XHF6UbQ 글: https://velog.io/@wkshin89/MLDL-Rotary-Embeddings RoPE의 직관은 간단하다. QKV linear projection으로 affine 변환된 임베딩에 위치 인덱스의 각도 배수만큼 회전을 걸어주는 것이다. 다음과 같은 fq, fk가 있다. fq = fk 일 때: 각각에 인덱스 배수만큼의 회전을 걸어주면: 왼쪽은 두 단어의 위치가 가까울 때, 오른쪽은 멀 때이다. fq = fk 이더라도 위치의 차이(m-n)에 따라 내적의 결과가 크게 차이 나는 것을 보여준다. 이러한 RoPE는 두 벡..

Constitutional DPO Constitutional DPO in Weaver: Foundation Models for Creative Writing Instruction Backtranslation 사람이 쓴 고품질의 stylish한 text에 weaver를 조정하기 위해 self-instruction 대신 instruction backtranslation을 수행. 더보기 각 subdomain-task 쌍에 대해 instruction-response 쌍을 작성하는 방법에 대한 5가지 사례에 주석을 단다. (다듬기의 경우 범위를 선택하고 문구나 구조를 수정하여 나쁘게 만들기) GPT-4에 few-shot으로 각 사례와 주석, 주석 처리의 근거를 제공하고 Chain-of-thought (CoT) 추론을 통해 주석 프로세스와 inst..

Self-Conditioning Self-Conditioning in Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning 일반적인 diffusion sampling에서는 x0를 반복적으로 예측하며 이 예측값은 바로 폐기된다. (a) Self-conditioning은 이 예측값을 버리지 않고 다음 예측에 대한 조건으로 사용하는 것이다. (b) x̃0는 이전 예측값을 재사용할 뿐이고 stop_gradient를 통해 역전파가 흐르지 않으므로 무시할 수 있는 만큼의 추가 비용이 발생한다. 훈련 시 일정 확률(e.g. 50%)로 해당 컨디셔닝을 사용한다.

R1 Gradient Penalty R1 gradient penalty in Which Training Methods for GANs do actually Converge?GAN의 적대적 손실 함수:손실을 G는 최소화, D는 최대화하는 것이 목적이다. GAN에서 Generator와 Discriminator의 고유한 내쉬 균형은 G의 생성 분포가 실제 데이터 분포와 같고 D가 항상 0을 내놓을 때이다. (D가 1/2을 출력할 경우는 고유하지 않음. 고유한가 아닌가는 중요하지 않지만.) 하지만 내쉬 균형점 근처에서 훈련이 불안정해진다. 왜? why? 생성 분포 G(z)와 데이터 분포 P가 떨어져 있는 경우에는 잘 구별한다. 하지만 G의 성능이 엄청 좋아서 데이터 분포와 (거의)같은 분포를 생성할 경우에는?똑같은 분포에서 나온 데이터를 보고 둘..

Score Distillation Sampling Score Distillation Sampling in DreamFusion 확산 모델(개념, 수식, 코드)의 목적 함수: (Timestep t와 noise ε을 샘플링하여 이미지 x를 확산하고 U-Net을 통해 ε을 예측) 하지만 샘플링하고 싶은 것이 픽셀이 아니라면 어떨까? DreamFusion 논문에서는 3D 모델을 만들기 위해 SDS를 제안하였다. Differentiable Image Parameterization(초반만)을 통해 x를 피라미터 θ와 미분 가능한 생성기 g의 출력으로 취급할 수 있다. x = g(θ). 확산 모델이 아닌 θ에 대해 최적화를 수행하려고 한다. LDiff의 gradient는 다음과 같고 (U-Net의 gradient * θ의 gradient) U-Net의 gradien..

이전 1 다음

티스토리툴바