Flow-based end-to-end video inpainting framework
[arXiv]
[Github]
Abstract
3가지 학습 가능한 모듈을 통한 End-to-End framework for Flow-Guided Video Inpainting( E2FGVI )
Introduction
일반적인 flow-based video inpainting 작업은 flow completion, pixel propagation, content hallucination 단계로 나뉘어 있다.
지금까지의 flow-based method들은 이전 단계의 오류를 바로잡을 방법이 없어 오류가 누적되고 GPU 가속을 받을 수 없는 수동 작업이 많이 포함돼있어 비효율적임.
E2FGVI는 각 단계를 모듈화 한 end-to-end framework이다.
Pixel propagation 대신 feature space에서의 propagation을 수행한다.
SOTA 성능, 이전의 작업들보다 15배 빠름.
Method
Flow completion and feature propagation
End-to-end flow completion
인코더 출력과 같은 크기로 다운샘플링된 해상도에서 누락된 부분을 구성하기 위한 흐름 추정 네트워크를 통해 추정.
양방향 흐름을 모두 구성할 수 있도록 훈련됨.
Flow-guided feature propagation
인코더 출력의 출력인 local temporal neighboring feature E.(그냥 인코딩한 건데 명칭을 어렵게 붙여서 헷갈림;)
Flow map을 통해 t+1 프레임의 feature를 t 프레임의 feature로 전파.
(P = 역전파를 담당하는 convolution layer, W = optical flow를 기반으로 한 warping 연산)
이전 연구들의 전파 과정과 비슷하지만 pixel level이 아닌 feature level에서 진행되며 번거로운 최적화 과정 없이 conv layer를 통해 전파되므로 훨씬 빠르고 효율적임.
그러나 flow completion 과정에서의 부정확한 추정으로 인해 관련 없는 정보를 전파하고 성능이 떨어질 수 있다.
따라서 추가적인 feature point를 얻기 위해 deformable convolution(modulated) 채택.
먼저 optical flow에 대한 offset과 추가될 feature point에 대한 가중치를 계산한 뒤
Warping operation W 대신 deformable conv layer D로 Et+1을 워프하고 최종 conv layer를 거쳐 역전파된 feature Êbt 얻음.
위의 방식을 순방향, 역방향으로 각각 적용하여 2개의 전파된 feature를 얻고 1x1 convolution으로 융합.
Temporal focal transformer
누락된 부분에 대한 정보를 보충하기 위해 FGVC와 같이 추가적으로 non-local 정보를 참고한다.
Local , non-local neighbor frame feature인 El, Enl을 concat하고 soft split으로 패치 임베딩.
Focal attention 사용.
시간축이 있기 때문에 focal attention 논문과는 다르게 3차원 window( t*h*w )로 묶고,
i번째 window의 패치들을 쿼리 Q로 하면,
self-attention을 위해 내부에서 K, V를 수집하고,
공간에 대한 풀링을 수행한 뒤 global-attention을 위해 전역에서 K, V를 수집하여 attention 수행.
Transformer block 내부의 형태는 FuseFormer를 가져왔다.
Training objectives
간단한 재구성 손실
T-PatchGAN 기반 판별자에 대한 적대적 손실
Flow completion module의 흐름 일관성 손실
Experiments
https://www.youtube.com/watch?v=N--qC3T2wc4
'논문 리뷰 > etc.' 카테고리의 다른 글
WoodFisher: Efficient Second-Order Approximation for Neural Network Compression (1) | 2023.10.27 |
---|---|
Accelerated Sparse Neural Training (0) | 2023.10.26 |
Online normalizer calculation for softmax (1) | 2023.10.23 |
Flow-edge Guided Video Completion (FGVC) (3) | 2023.10.11 |
Deep Flow-Guided Video Inpainting (1) | 2023.10.10 |
Generative Image Inpainting with Contextual Attention (1) | 2023.10.10 |