Inversion을 통해 얻은 attention map을 사용해 시간적 일관성 향상
[Github]
[arXiv](2023/10/11 version v3)
Abstract
Inversion을 통해 zero-shot video editing을 수행하는 FateZero 제안
Methods
Tune-A-Video 기반
Preliminary: Latent Diffusion and Inversion
DDIM Sampling:
DDIM Inversion:
FateZero Video Editing
Inversion Attention Fusion
Inversion noise를 직접 사용하면 많은 denoising step에 따른 오류 누적, 높은 cfg 가중치 때문에 프레임 불일치 발생.
Source prompt psrc, z0을 알 때, DDIM inversion을 수행하며 self-attention map, cross-attention map, zT를 저장한다.
편집 단계에서 얻은 attention map을 융합하여 제거할 노이즈를 얻을 수 있다.
pedit은 편집된 prompt이고 cross-attention map의 경우 편집되지 않은 부분만을 사용한다.
Attention Map Blending
ssrc를 그대로 사용하면 구조 유출이 발생하고(5열) sedit을 사용하면 원본 구조가 소실된다.(4열)
ssrc에서 임계값 τ를 넘는 마스크 M을 추출하고 외부 구조는 ssrc, 내부 구조는 sedit을 사용한다.
Spatial-Temporal Self-Attention
Tune-A-Video의 casual attention과 비슷하게 self-attention에서 중간 프레임 zw = zRound[n/2]를 K, V로 추가한다.
Experiments