Abstract
각 step에서 latent를 반복적으로 조정하여 다양한 편집 작업이 가능한 프레임워크인 FlexEdit 제안
[arXiv](2024/03/27 version v1)
Approach
Dynamic Object Binary Mask from Attention Map
[Dataset Diffusion]: Layer에 걸쳐 self-attention, cross-attention map을 집계하고 self-attention map을 지수화하여 곱하면 cross-attention map을 강화할 수 있다.
강화된 cross-attention map에 임계값을 적용하여 마스크를 얻을 수 있다.
Latent Optimization with Object Constraints
Controllable Object Replacement
사용자가 편집될 개체의 예상 중심점이나 크기를 입력하면 마스크를 주어진 중심점이나 크기에 근사한다.
Attention Separation in Mask-free Object Addition
새로운 개체가 추가되는 경우 기존 개체와의 attention mask 간의 간섭을 최소화해야 한다.
기존 개체는 Grounded SAM을 통해 마스크를 추출하고 새로운 개체에 대해서는 이전 섹션에서 설명한 동적 마스크 추출을 사용.
두 마스크를 벡터 f, g로 평탄화하여 코사인 유사도를 최소화한다.
Latent Optimization via Object Constraints
지금까지 설명한 개체 제약 조건을 적용하고 확산 모델을 통해 업데이트한다.
Latent Blending with Adaptive Binary Mask
SAM으로 추출한 S, 동적으로 추출한 M의 합집합에서 약간 확장하여 너무 타이트하지 않은 전경 마스크를 얻고
forward process에서 얻은 배경과 혼합.
Iterative Latent Manipulation with FlexEdit
특정 timestep마다 이 과정을 여러 번 반복하여 개선.
Experiments
PieBench, MagicBrush에서 하위 집합을 선별하여 PiebenchO, MagicO benchmark를 구성하고 새로운 SynO benchmark를 도입했다.
정성적 결과는 Project Page로~