배경 영역의 계산을 줄임
[arXiv](2024/01/11 version v1)
Abstract
중요한 영역에 더 많은 계산을 할당하여 빠르게 비디오를 편집할 수 있는 Object-Centric Diffusion(OCD) 제안
Off-the-shelf acceleration
FateZero 기반
Faster self-attention
ToMe, ToMe for Stable Diffusion
Pairing token locations from inversion
FateZero는 inversion으로 얻은 attention map에 의존하기 때문에 inversion과 sampling에서 토큰이 동일한 짝을 이루는 게 중요하다. Inversion 중에 토큰을 병합하고 sampling에서 동일한 짝을 사용한다.
Re-sampling destination tokens per-frame
이미지에 대해 적용한 이전 연구에서는 배치에서 무작위성을 고정했지만 본문에서는 각 프레임마다 토큰 위치를 다르게 샘플링한다.
How to search for destination match
병합할 토큰을 전체 프레임에서 찾으면 아티팩트가 발생했다고 한다. 따라서 병합할 토큰을 찾을 시간적 범위는 FateZero의 self-attention 범위와 같다.
Merging queries, keys or values?
Q를 제외하고 K, V에만 ToMe 적용
Capped merging in low-res UNet stages
ToMe의 효율이 가장 좋은 것은 고해상도 레이어이다. 하지만 지연 시간을 더욱 줄이기 위해 모든 레이어에 ToM를 적용하고, bottleneck을 방지하기 위해 저해상도 레이어에서 최소 토큰 수를 지정한다.
Faster noise scheduler
품질에는 큰 영향 없지만 지연 시간을 크게 줄일 수 있는 sampler인 DPM-Solver++ 사용.
Object-Centric Diffusion
- Object-Centric Sampling
- Object-Centric 3D Token Merging
Object-Centric Sampling
Detector를 통해 얻은 segmentation mask에 따라 전경과 배경을 나누고 배경의 샘플링 횟수를 줄인다.
전경과 배경의 불일치를 막기 위해 특정 timestep부터 합친 후 샘플링한다.
Object-Centric 3D Token Merging
다음과 같이 전경 마스크에 속한 토큰이 병합될 확률을 줄여 배경 영역에서 더 많은 병합이 일어나도록 한다.
Experiments