Object-Centric Diffusion for Efficient Video Editing

배경 영역의 계산을 줄임

[arXiv](2024/01/11 version v1)

Abstract

중요한 영역에 더 많은 계산을 할당하여 빠르게 비디오를 편집할 수 있는 Object-Centric Diffusion(OCD) 제안

Off-the-shelf acceleration

FateZero 기반

Faster self-attention

ToMe, ToMe for Stable Diffusion

Pairing token locations from inversion

FateZero는 inversion으로 얻은 attention map에 의존하기 때문에 inversion과 sampling에서 토큰이 동일한 짝을 이루는 게 중요하다. Inversion 중에 토큰을 병합하고 sampling에서 동일한 짝을 사용한다.

Re-sampling destination tokens per-frame

이미지에 대해 적용한 이전 연구에서는 배치에서 무작위성을 고정했지만 본문에서는 각 프레임마다 토큰 위치를 다르게 샘플링한다.

How to search for destination match

병합할 토큰을 전체 프레임에서 찾으면 아티팩트가 발생했다고 한다. 따라서 병합할 토큰을 찾을 시간적 범위는 FateZero의 self-attention 범위와 같다.

Merging queries, keys or values?

Q를 제외하고 K, V에만 ToMe 적용

Capped merging in low-res UNet stages

ToMe의 효율이 가장 좋은 것은 고해상도 레이어이다. 하지만 지연 시간을 더욱 줄이기 위해 모든 레이어에 ToM를 적용하고, bottleneck을 방지하기 위해 저해상도 레이어에서 최소 토큰 수를 지정한다.

Faster noise scheduler

품질에는 큰 영향 없지만 지연 시간을 크게 줄일 수 있는 sampler인 DPM-Solver++ 사용.