본문 바로가기

논문 리뷰

(452)
ProPainter: Improving Propagation and Transformer for Video Inpainting Flow-guided video inpainting 방법론 총집합 + dual-domain propagation + mask-guided sparse transformer [Project Page] [Github] [arXiv]AbstractVideo Inpainting 프레임워크 PropainterDual-domain propagationMask-guided sparse video Transformer Introduction이미지 기반 전파와 feature 기반 전파의 장점을 결합하기 위한 dual-domain propagationCPU가 아닌 GPU에서 전역 이미지 전파 수행Flow-based deformable alignment를 활용한 향상된 feature 전파효율적인 네트워크를 통해 SOTA보다..
Flow-Guided Transformer for Video Inpainting (FGT) 시간적, 공간적 transformer를 이용한 flow-guided video inpainting [Github] [arXiv], [Supplementary] Abstract Flow-guided Transformer 제안 Introduction FGT는 2 part로 구성: Flow completion network Flow-guided transformer Flow completion network : 시공간적으로 분리된 P3D block을 U-Net에 통합. Edge loss 도입. Flow-guided transformer : Spatial, temporal attention 분리 Optical flow는 spatial transformer에서만 사용 Temporal attention은 시공간적으..
Towards An End-to-End Framework for Flow-Guided Video Inpainting (E2FGVI) Flow-based end-to-end video inpainting framework [arXiv] [Github] [Video Demo] Abstract 3가지 학습 가능한 모듈을 통한 End-to-End framework for Flow-Guided Video Inpainting( E2FGVI ) Introduction 일반적인 flow-based video inpainting 작업은 flow completion, pixel propagation, content hallucination 단계로 나뉘어 있다. 지금까지의 flow-based method들은 이전 단계의 오류를 바로잡을 방법이 없어 오류가 누적되고 GPU 가속을 받을 수 없는 수동 작업이 많이 포함돼있어 비효율적임. E2FGVI는 각 단..
Flow-edge Guided Video Completion (FGVC) Flow edge를 먼저 완성, non-local flow connection 도입 [Project Page] [arXiv] [Github] Abstract 새로운 flow-based video completion algorithm 제시 모션의 가장자리를 먼저 완성하여 flow completion을 안내 시간적으로 멀리 떨어진 프레임에 non-local flow connection을 도입하여 비디오 콘텐츠 전파 Introduction 현재까지 inpainting에서 가장 성공적인 방법은 flow 기반 모델. 하지만 기존 모델은 날카로운 가장자리를 잘 합성하지 못함. 기존 모델의 또 다른 한계는 시간적으로 먼 프레임에 대한 연결이 약하고 색상을 직접 전파하여 현실에서의 다양한 색상 노이즈(노출, 그림자, ..
Deep Flow-Guided Video Inpainting Optical flow를 통한 video inpainting 방법 [Project Page] [arXiv] [Github] Abstract Deep Flow Completion network를 이용한 flow-guided video inpainting Introduction 인페인팅을 위해 RGB 픽셀을 채우는 대신 flow 기반 접근 방법 제시. 영상의 대부분의 개체는 추적 가능한 동작을 가지므로 시간적 일관성이 자연스럽게 유지됨. Optical flow를 채우기 위해 DFC-Net(Deep Flow Completion Network) 설계. Coarse-to-fine refinement: 3개의 하위 네트워크(DFC-S)를 쌓아 단계적으로 복구 Temporal coherence maintenance:..
Generative Image Inpainting with Contextual Attention Contextual attention으로 image inpainting 개선 [arXiv] [Github] Abstract 먼 위치에서 정보를 빌리거나 복사하는 데 있어서 convolution의 비효율성 때문에 inpainting 작업에서 종종 왜곡된 구조나 흐릿한 질감이 생성된다. 본 논문에서는 주변 feature를 명시적으로 참조할 수 있는 생성 모델 기반 접근 방식을 제안한다. Introduction CNN 기반 방법은 boundary artifact, distorted structure, blurry texture를 생성하는 경우가 많음. 이는 먼 거리의 픽셀 간의 모델링을 하는 데에 있어서 CNN의 비효율성에 기인함. 일단 재구성 손실로 학습된 CNN으로 처리한 뒤 contextual atten..
FuseFormer: Fusing Fine-Grained Information in Transformers for Video Inpainting Video inpainting을 위한 soft split, soft composition [arXiv] [Github] Abstract Soft Split 및 Soft Composition 작업을 기반으로 하는 video inpainting 용 Transformer 모델인 FuseFormer 제안 Introduction Vision Transformer(ViT) baseline + 여러 프레임에서 작동하도록 수정 고해상도 프레임들로 인한 계산 부담 완화를 위해 transformer block 전후에 가벼운 convolution 사용 Transformer의 패치 단위 연산으로 인해 sub-token level feature 간의 직접적인 상호작용이 부족하다. 따라서 이를 해결하기 위해 SS(Soft Spl..
Efficient Streaming Language Models with Attention Sinks (StreamingLLM) Attentoin sink를 이용해 context를 확장하면서 안정성 유지 [arXiv] [Github] Abstract 초기 토큰의 Key, Value를 유지하면 window attention 성능이 크게 회복되는 attention sink 현상 관찰. 유한 길이의 LLM을 fine-tuning 없이 무한 길이로 일반화하는 StreamingLLM 소개. Introduction (a) 모든 KV(key, value) 캐싱: 계산 비용 부담, 긴 시퀀스 처리 못함. (b) 최신 토큰의 KV만 캐싱: 계산 효율적이지만 긴 시퀀스에서 성능이 급격히 저하됨. (c) 생성된 각 토큰에 대해 최근 토큰의 KV 상태를 다시 빌드: 성능은 좋지만 2차 계산으로 인해 실용적이지 않음. 연구진은 attention scor..
FreeU: Free Lunch in Diffusion U-Net 저주파수, 고주파수 feature 간의 균형 조절 [Project Page] [Github] [arXiv] Abstract U-Net에 대한 분석을 통해 추가 교육이나 fine-tuning 없이 품질을 향상하는 방법인 FreeU 제안 Introduction Denoising process에서 저주파수 구성요소는 거의 바뀌지 않지만, 고주파수 구성요소는 노이즈에 민감하며, 급격히 변함. 연구진의 조사에 따르면 U-Net backbone은 주로 denoising을 담당, skip connection은 세분화된 의미 정보를 전파하여 디코더 모듈에 고주파 feature를 도입함. 그러나 이러한 전파가 denoising을 방해할 수 있고, 다음과 같은 비정상적인 세부정보가 생성될 수 있음. 추론 단계에서 back..
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis Stable diffusion의 개선 버전 [Github] [arXiv] (본 글은 요약본입니다. 자세한 리뷰) SDXL 아키텍처 향상(3배 더 큰 U-Net backbone) 추가 컨디셔닝 오토인코더 향상 다단계 학습 Refiner Improving Stable Diffusion Architecture & Scale 아키텍처 구성이 달라졌다.(SD, SDXL 아키텍처 분석) 두 개의 텍스트 인코더를 같이 사용, 풀링된 텍스트 인코딩을 추가로 컨디셔닝 Micro-Conditioning 학습 데이터셋의 rescaling 전 원래 사이즈 csize를 컨디셔닝. 추론 시 겉보기 해상도 조절 가능 학습 데이터 로드 시 데이터가 crop 되었다면 crop 좌표 ccrop을 컨디셔닝. ccrop = (0,0)으로 ..
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning Text-to-image 모델에 모듈을 추가하여 비디오 생성 Project Page Github arXiv Abstract Motion modeling module을 통해 T2I 모델에서 애니메이션을 생성하는 AnimateDiff 제안 Personalized Animation 다음 그림과 같이 개인화된 T2I 모델에 바로 삽입하여 사용할 수 있는 모듈을 목표로 한다. Motion Modeling Module Network Inflation 프레임 시간축이 추가된 5D(b*c*f*h*w) 텐서를 처리하기 위해 video diffusion model과 같이 원본 U-Net의 2D convolution과 attention layer를 Pseudo-3D layer로 교체하고 공간축을 따라 작동하도록 한다. MM..
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation Reflow, 증류를 통한 초고속 1단계 생성 Github arXiv Abstract Rectified flow를 통해 확산 모델을 초고속 1단계 모델로 전환하기 위한 text-conditioned pipeline인 InstaFlow 제안. 0.1초 이내에 이미지 생성 ㄷㄷ Methods Rectified Flow and Reflow Rectified flow(RF)는 두 분포 사이의 전송 매핑을 학습하기 위한 접근 방식을 제공한다. 신경망을 통해 v를 매개변수화 한다. 일반적인 확률 흐름 ODE는 다음과 같은 형태인데, RF의 저자는 더 간단한 형태를 제안했다. Straight Flows Yield Fast Generation ODE의 궤적을 직선화하는 것은 추론 비용을 줄이기 위한 필수적인 방법임. ..