Global 지각 손실을 통해 매끄럽고 일관적인 연결 가능
[Github]
[arXiv](Current version v3)
Abstract
이음새 없이 일관된 몽타주를 생성할 수 있는 SyncDiffusion 제안
Introduction
중첩된 영역을 고정 (맨 윗줄): 비현실적임.
중첩된 영역을 평균화 (중간, MultiDiffusion): 영역 간의 내용이나 스타일이 다를 수 있음.
SyncDiffusion: 각 단계에서 예측된 이미지의 지각적 유사성 손실을 통해 충실도를 향상함.
Backgrounds
MultiDiffusion
전체 파노라마 이미지 z,
각 window xi,
파노라마에서 해당 window의 마스크 mi,
Tz → i는 z를 i번째 window에 매핑하고,
Ti → z는 window를 전체 파노라마로 확장하여 확장된 부분을 0으로 채운다.
먼저 모든 window를 z로 확장하고 평균화한 뒤
다시 각 window로 자르고 denoising을 수행한다.
SyncDiffusion
StyncDiffusion에서는 겹치는 부분 대신 z 전체에서 LPIPS, style loss와 같은 기성 손실 함수를 활용한다.
계산을 용이하게 하기 위해 anchor window x0을 지정하고 손실 함수를 통해 경사 하강을 수행할 수 있다.
(D는 LDM을 사용할 경우의 decoder이며, pixel domain에서 수행될 경우 ID 함수)
하지만 이미지의 노이즈로 인해 지각 손실을 제대로 측정할 수 없기 때문에 xt 대신 DDIM reverse process를 통해 예측된 이미지에서 경사 하강을 수행한다.
알고리즘:
Results