Flow-guided video inpainting 방법론 총집합 + dual-domain propagation + mask-guided sparse transformer
[Project Page]
[Github]
[arXiv]
![](https://blog.kakaocdn.net/dn/bAxIfZ/btsxkje8BhR/qghbOcVHLiSFAs9ugfEVOK/img.png)
Abstract
Video Inpainting 프레임워크 Propainter
- Dual-domain propagation
- Mask-guided sparse video Transformer
Introduction
이미지 기반 전파와 feature 기반 전파의 장점을 결합하기 위한 dual-domain propagation
- CPU가 아닌 GPU에서 전역 이미지 전파 수행
- Flow-based deformable alignment를 활용한 향상된 feature 전파
- 효율적인 네트워크를 통해 SOTA보다 40배 빠른 작업 속도
![](https://blog.kakaocdn.net/dn/YkJYg/btsylB6TM0w/jvHqQ0TO6P2lLYKCosiG91/img.png)
Video inpainting(VI)에 transformer를 활용한 이전 연구들은 고차원적인 프레임 간 연산으로 인해 너무 과도한 메모리를 요구한다.
하지만 실제로 누락되지 않은 대부분의 영역에서는 attention이 불필요하고, 인접한 프레임에는 매우 중복된 texture가 포함되어 있다.
따라서 상기한 문제들을 개선한 mask-guided sparse video Transformer 설계.
![](https://blog.kakaocdn.net/dn/bVPFQQ/btsydVEWbN8/O2mWaVmxw6yqTLZnk8AKaK/img.png)
Methodology
가장 먼저 비디오 시퀀스에서 양방향 optical flow 추출.
Propainter의 구성:
- RFC(Recurrent Flow Completion)
- DDP(Dual-Domain Propagation)
- MSVT(Mask-guided Sparse Video Transformer)
![](https://blog.kakaocdn.net/dn/HMJMq/btsylCdPltY/6pWTOt5kbwy07HYSzQGcrK/img.png)
Recurrent Flow Completion
먼저 flow를 downsampling 한 다음 deformable convolution을 기반으로 한 deformable alignment를 이용해 flow 정보를 양방향 전파.
역방향 전파에 대한 예시.
![](https://blog.kakaocdn.net/dn/C4KcZ/btsykpFFkb5/eSE7z8ZsI2IpkcMSEsqyE0/img.png)
Convolutoin layer로 mask와 offset을 계산하고 deformable convolution을 통해 전파.
최종적으로 decoder를 통해 upsampling 하여 완성된 flow 얻음.
Dual-domain Propagation
양방향 전파에 모두 적용하지만 마찬가지로 역방향 전파를 예시로 설명함.
Image propagation
몇 가지 조건을 만족하는 픽셀 위치에 대해 이미지 전파 수행.
- 일관성 검사 통과 : flow를 기반으로 순방향, 역방향 진행을 했을 때 픽셀이 원래 위치로 돌아와야 함(임계값 이하)
![](https://blog.kakaocdn.net/dn/bMnqUX/btsx45oByi5/Il4bJsYMPqvGyb89bPeBT1/img.png)
- 픽셀이 마스크 된 영역 안에 있어야 함
![](https://blog.kakaocdn.net/dn/CSvYR/btsx49kfGdH/F2SBLTDKx0tXQkudKtVRp1/img.png)
- 해당 픽셀이 전파 전 프레임에서는 마스크 되지 않은 영역에 있어야 함
![](https://blog.kakaocdn.net/dn/bspcBB/btsx3N2JVHj/Kr0CxKwY4ZALnl52Stdmv0/img.png)
전파가 완료된 픽셀 위치에 대해 알려진 픽셀로 마스크를 업데이트하여 지속적인 전파가 가능하도록 함.
Feature propagation
E2FGVI와 같은 방법으로 feature propagation을 진행하지만 추가적인 flow valid map V를 제공한다는 점이 다르다.
![](https://blog.kakaocdn.net/dn/bCKdiL/btsyl2jacsv/jgwtec8Oj66YkrYuL89X60/img.png)
Valid map은 원래 마스크 M과 이미지 전파 후 업데이트 된 M̂을 사용하여 계산됨.
Mask-Guided Sparse Video Transformer
입력된 비디오 시퀀스 feature를 soft split 하고 window로 분할하여 feature Z 생성.
Z 내에서 Q, K, V를 얻는다.
Global token에서 K, V를 가져오는 FGT의 전략과 FuseFormer의 F3N block 사용.
![](https://blog.kakaocdn.net/dn/brHgQ3/btsylCrvFV4/NxPXaGKmeTIrBIA8iBYH11/img.png)
Sparse Query Space
마스크를 Z와 같은 크기로 downsampling 하고 마스킹된 부분이 포함된 window 만을 포함한 sparse mask를 얻음.
![](https://blog.kakaocdn.net/dn/sWjWm/btsygnuI09G/hfmTR259myD68sFv6ptjUK/img.png)
Sparse Key/Value Space
인접 프레임 간에는 매우 중복되는 texture가 많으므로 temporal stride를 2로 하여 K, V 수집.
![](https://blog.kakaocdn.net/dn/c2zwKq/btsybycYtqy/wSBSN7lWIbxh1k2zvvlFxk/img.png)
Loss Functions
Loss Functions of RFC network
누락된 영역과 알려진 영역에 대한 재구성 손실:
![](https://blog.kakaocdn.net/dn/s5fC0/btsykuf1An1/k4HRmsMXsi55gmIggA2651/img.png)
매끄러운 flow field를 위한 smoothness loss:
![](https://blog.kakaocdn.net/dn/duyrj2/btsx5V7rBgO/uoy4kLkRjQkWQ6dyKHI490/img.png)
Total loss:
![](https://blog.kakaocdn.net/dn/Z08d2/btsycqMhM2u/ita8Wp1QExn1Zh7Dia41FK/img.png)
Loss Functions of ProPainter
생성된 비디오 시퀀스에 대한 L1 loss:
![](https://blog.kakaocdn.net/dn/PiYMb/btsydsJRkMg/0r4rxNR6kJxd6eUft3fYdK/img.png)
T-PatchGAN의 판별자를 기반으로 한 적대적 손실:
![](https://blog.kakaocdn.net/dn/bGd4iB/btsybWY0Hdp/oSoaYwj0jTEff4o9LJ1hR1/img.png)
Total loss:
![](https://blog.kakaocdn.net/dn/dguzUz/btsybUfN7VP/nO6XEFs8kAe95lH5otBK8k/img.png)
Experiments
https://www.youtube.com/watch?v=92EHfgCO5-Q
'논문 리뷰 > Vision Transformer' 카테고리의 다른 글
EVA-02: A Visual Representation for Neon Genesis (1) | 2023.10.19 |
---|---|
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale (0) | 2023.10.18 |
Semantic-SAM: Segment and Recognize Anything at Any Granularity (1) | 2023.10.18 |
Flow-Guided Transformer for Video Inpainting (FGT) (0) | 2023.10.12 |
FuseFormer: Fusing Fine-Grained Information in Transformers for Video Inpainting (0) | 2023.10.10 |
StyleDrop: Text-to-Image Generation in Any Style (0) | 2023.09.26 |