본문 바로가기

논문 리뷰/Diffusion Model

FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing

 

Abstract

각 step에서 latent를 반복적으로 조정하여 다양한 편집 작업이 가능한 프레임워크인 FlexEdit 제안

 

[Project Page]

[arXiv](2024/03/27 version v1)

 

 

Approach

 

Dynamic Object Binary Mask from Attention Map

[Dataset Diffusion]: Layer에 걸쳐 self-attention, cross-attention map을 집계하고 self-attention map을 지수화하여 곱하면 cross-attention map을 강화할 수 있다.

Dataset Diffusion

 

 

강화된 cross-attention map에 임계값을 적용하여 마스크를 얻을 수 있다.

 

Latent Optimization with Object Constraints

Controllable Object Replacement

사용자가 편집될 개체의 예상 중심점이나 크기를 입력하면 마스크를 주어진 중심점이나 크기에 근사한다.

 

 

Attention Separation in Mask-free Object Addition

새로운 개체가 추가되는 경우 기존 개체와의 attention mask 간의 간섭을 최소화해야 한다.

 

기존 개체는 Grounded SAM을 통해 마스크를 추출하고 새로운 개체에 대해서는 이전 섹션에서 설명한 동적 마스크 추출을 사용.

 

두 마스크를 벡터 f, g로 평탄화하여 코사인 유사도를 최소화한다.

 

Latent Optimization via Object Constraints

지금까지 설명한 개체 제약 조건을 적용하고 확산 모델을 통해 업데이트한다.

ϵθ = object mask 추출

 

Latent Blending with Adaptive Binary Mask

SAM으로 추출한 S, 동적으로 추출한 M의 합집합에서 약간 확장하여 너무 타이트하지 않은 전경 마스크를 얻고

 

forward process에서 얻은 배경과 혼합.

 

Iterative Latent Manipulation with FlexEdit

특정 timestep마다 이 과정을 여러 번 반복하여 개선.

 

 

 

Experiments

PieBench, MagicBrush에서 하위 집합을 선별하여 PiebenchO, MagicO benchmark를 구성하고 새로운 SynO benchmark를 도입했다.

 

정성적 결과는 Project Page로~

 

FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing

Abstract Our work addresses limitations seen in previous approaches for object-centric editing problems, such as unrealistic results due to shape discrepancies and limited control in object replacement or insertion. To this end, we introduce FlexEdit, a fl

flex-edit.github.io