Layered Neural Atlases for Consistent Video Editing

비디오 프레임을 2D atlas로 분해하고 다시 비디오에 매핑

[Project Page]

[Github]

[arXiv](Current version v1)

+참고: https://github.com/thiagoambiel/NeuralAtlases

훈련된 모델을 여러 비디오에 적용할 수 있는 것이 아니라, 프로젝트마다 새로운 모델을 훈련해야 한다.

모델을 훈련하면 원하는 프레임 지점에서 배경 atlas와 전경 atlas를 생성할 수 있고, 해당 atlas를 편집하여 적용할 수 있다.

폐색이나 왜곡이 많은 물체의 경우 multi-atlas를 사용하여 개선할 수 있다.

위 그림은 폐색이 많은 반대쪽 다리를 다른 atlas로 렌더링한 결과이다.

또한 애니메이션 atlas를 이용하여 모든 프레임에 다른 편집을 적용할 수도 있다.

Abstract

비디오를 2D atlas set으로 분해하고 다시 비디오에 매핑하는 MLP 기반 end-to-end framework 소개

Estimating Neural Atlas from Video

이 방법의 입력은 비디오와 관심 객체를 식별할 마스크이며, 목표는 배경과 객체의 atlas set에 대해 각 비디오 픽셀을 매핑하고, 각 픽셀의 불투명도 값을 추정하는 것이다.

좌표 기반 MLP를 통해 각 구성요소를 표현하고, 렌더링 된 고정 이미지 그리드에서 편집한 뒤 다시 비디오 프레임에 매핑한다.

여러 물체의 경우에도 수행할 수 있지만 배경과 움직이는 단일 객체의 경우에 초점을 맞추어 진행한다.

4개의 MLP로 구성된다. (M_b, M_f, M_α, A)

M_b, M_f : 픽셀 위치를 2D atlas에 매핑

M_α : atlas의 불투명도 출력

A : atlas의 RGB 색상 출력

시간이 지남에 따라 일관적이지 않은 객체에 대해서는 여러 altas layer로 분해해야 한다.

Model Overview

색상을 예측할 때는 위치 인코딩 𝜙 사용.

색상과 불투명도를 조합하여 재구성. (다른 네트워크에서는 위치 인코딩이 사용되지 않음)

Training

주요 손실은 재구성 손실이며, 추가적인 정규화 손실 설계.

Loss terms

Reconstruction loss

색상 차이 + gradient 차이 (장면 간 부드러운 전환 촉진)

Rigidity loss

Local rigidity와 관련된 손실인데 잘 모르게슴...

Atlas를 가능한 왜곡되지 않은 상태로 유지하면서 객체의 비평면성을 위해 약간의 왜곡을 허용하는 손실이라고 한다.

p에서 매핑 M에 대한 Jacobian matrix를 통해 rigidity loss를 정의한다.

여기서

Symmetric Dirichlet term의 변형이라는 데 이 식이 이해가 안댐 ㅇㅇ;; 찾아봐도 정보도 별로 없고

Optical flow loss

현재 픽셀 p와 이전 또는 이후 프레임 픽셀 p'가 같은 위치에 매핑되어야 한다.

또한 동일한 불투명도를 가질 것으로 예상된다.

Optical flow loss:

(표준 flow 일관성 검사가 일치하지 않으면 W=0, 일치하면 W=1이다. 이는 신뢰할 수 있는 픽셀에만 optical flow loss를 적용하는 것을 의미한다.)

Sparsity loss

p가 background atlas에 매핑될 때 해당 위치의 foreground atlas의 값이 0이 되게 한다.

Initialization

초기 부트스트래핑 단계(~10000)에서만 사용되는 두 가지 추가 손실.

첫 번째는 rigidity loss의 Δ를 100으로 하여 큰 물체의 왜곡을 방지하는 손실.

두 번째는 예측된 불투명도 값이 다른 모델이나 사용자가 제공한 거친 마스크와 일치되도록 하는 손실.

훈련 초반에만 사용되기 때문에 마스크가 정확하지 않아도 괜찮다.

Video Editing in Atlas Space

렌더링 된 atlas를 편집하여 다시 비디오에 매핑하기만 하면 된다.

저작자표시 (새창열림)

'논문 리뷰 > etc.' 카테고리의 다른 글

Coincidence, Categorization, and Consolidation: Learning to Recognize Sounds with Minimal Supervision (0)	2023.12.15
Look, Listen and Learn (0)	2023.12.15
Sketch Video Synthesis (0)	2023.12.10
CLIPasso: Semantically-Aware Object Sketching (3)	2023.12.05
Fast Feedforward Networks (FFF) (2)	2023.11.27
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets (2)	2023.11.21

Ostin X

Layered Neural Atlases for Consistent Video Editing

Abstract