[Github]
[arXiv](2023/04/14 version v1)
Abstract
Score Distillation Sampling을 응용하여 최소한의 수정으로 이미지를 편집할 수 있는 Delta Denoising Score (DDS) 소개
Delta Denoising Score (DDS)
Editing with SDS
판다를 다람쥐로 바꾸기 위해 초기 이미지 z를 판다 이미지로 초기화하고 SDS를 수행했을 때 아래 그림과 같이 점점 흐려지며 세부 사항이 소실되는 것을 볼 수 있다.
우리의 목적은 text로 안내되는 방향을 δtext, 나머지 방향을 δbias라고 했을 때, 두 방향을 분리하여 δtext만 업데이트하는 것이다.
Denoising the Editing Direction
ẑ, ŷ, z, y에 대해
z = ẑ으로 초기화되고 ŷ = "~ flamingo ~", y = " ~ peacock ~ ".
ẑ, z는 동일한 noise와 timestep을 공유한다.
z에 대한 DDS:
논문의 설명도 약간 애매해서 개인적인 의견으로 대체하겠음.
일단, 같은 DM을 사용하여 비슷한 prompt의 noise를 예측하므로 z와 ẑ이 동일할수록 손실이 작다.
또한 right term은 변경할 수 없으므로 손실을 줄이기 위해서는 y의 요소(peacock)를 최대한 줄여야 한다.
따라서 prompt y에 대한 이미지를 생성하려는 DM과, ẑ과 비슷한 이미지를 생성하려는 θ의 줄다리기가 되고, 다음 그림의 다람쥐꼬리 부분처럼, 두 feature가 비슷하다고 속이게 된다.
DDS로도 완벽한 δtext의 분리는 불가능하다. 이건 어쩔 수 없는 부분이라고 생각된다.
실제로 작은 w에 대해서는 이미지가 거의 변경되지 않는다.