본문 바로가기

논문 리뷰/Diffusion Model

Noise-Free Score Distillation

[arXiv](Current version v1)

 

Introduction

확산 모델의 힘을 이미지를 넘어 다른 도메인에 투사하기 위해 Score Distillation Sampling(SDS)이 도입되었다.

하지만 표준 denoising process로 생성된 이미지와 SDS 최적화로 생성된 이미지 사이에는 여전히 차이가 있으며, SDS는 세부 정보를 잘 생성하지 못한다.

 

본문에서는 확산 모델을 score function으로 처리하면서 score를 3가지 방향으로 분해하는 공식을 제안한다.

 

새로운 통찰을 통해 Noise-Free Score Distillation (NFSD) 도입.

 

 

 

Background

Classifier-free guidance(CFG)를 활용한 확산 모델에 중점을 둔다.

 

SDS

 

 

 

Score Decomposition

Score function

의 방향을 해석 가능한 요소로 분해한다.

 

CFG의 두 예측 간의 차이를 δC로 표기하고 조건 방향이라고 한다.

 

또한 나머지 무조건 항도 다음과 같이 분해한다.

 

δD는 out-of-distribution(OOD)인 x = g(θ)와 실제 데이터의 분포의 차이에서 유도된 도메인 보정 방향이다.

(노이즈 제거에 의해 유도됨)

 

δN은 노이즈 제거 방향.

 

실제로, 사전 훈련된 확산 모델을 통해 노이즈가 있는 xIn-Distribution에서 예측하면 순수한 노이즈인 δN이 예측되지만, xOOD에서는 δN + δD가 예측되고, δD를 xOOD에 추가하면 보다 실제 데이터에 가까운 이미지가 생성된다.

 

CFG와 SDS를 다시 쓸 수 있다.

 

실질적으로 xOOD를 도메인 내의 원하는 이미지로 조정하려면 δD와 δC가 필요하다.

하지만 새로운 문제는, 일반적으로 δN − ϵ가 0이 아니라는 데에 있으며, 실제로 SDS는 흐릿한 이미지를 생성하는 경향이 있다.

 

 

 

Noise Free Score Distillation

내가 생각하기에 결국 이 논문의 요지는, SDS에서는 U-Net의 gradient를 제거하면서 암묵적으로 완벽한 U-Net을 가정했지만, 실제로 완벽하게 작동하지 않는다면 어떻게 대응할 것인가?를 생각한 논문인 것 같다.

 

작은 timestep에서는 노이즈가 적으므로 δD가 δN + δD를 지배하여 δN은 무시할 수 있다.

 

큰 timestep에서는, δD를 다음과 같이 근사한다.

(pneg = unrealistic, blurry, low quality, out of focus, ugly, low contrast, dull, dark, low-resolution, ...)

 

또한 다음과 같고

 

Noise-free score distillation을 정의한다.

 

 

 

Experiments

숫자 = CFG scale (SDS에서는 δN의 영향을 지우기 위해 높은 scale을 사용해야 한다.)