본문 바로가기

분류 전체보기

(553)

I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models [Project Page] [Github] [arXiv](Current version v1) A winged dog flying over the city. A cute kitten in the grass, 3D cartoon. A paper craft art depicting a girl giving her cat a gentle hug. Both sit amidst potted plants, with the cat purring contentedly while the girl... In a rice field , a girl walks toward the eye of the storm with her back to the camera. Abstract 의미론과 질적 향상을 분리한 cascade 구조로 ..

FreeInit: Bridging Initialization Gap in Video Diffusion Models 문제점을 오히려 역이용하여 시간적 일관성 개선에 사용함 지렸다; [Project Page] [Github] [arXiv](Current version v1) Abstract 비디오 확산 모델의 노이즈 초기화에 대해 탐구하고 시간적 일관성을 크게 개선하는 FreeInit 제안 Introduction 사실 확산 모델의 forward process에서 저주파 요소를 완전히 지우지 못하는 문제는 이미 유명한 문제이다. 이 논문에서는 noise re-initialize를 통해 이 문제를 해결함과 동시에 시간적 일관성을 향상했다. FreeInit 먼저 DDIM sampling을 통해 z0을 얻은 다음 샘플링에서 사용된 노이즈와 동일한 ϵ를 다시 추가하여 zT를 얻는다. zT의 저주파 성분과 무작위 가우스 노이즈 η..

VideoLCM: Video Latent Consistency Model [arXiv](Current version v1) Abstract Latent Consistency Model을 사용하여 비디오를 생성하는 VideoLCM 제안 Method Preliminaries Consistency model의 자기 일관성은 다음과 같다. 일관성 증류 손실은 fθ의 EMA인 fθ*과 xtn+1에서 ODE solver Φ를 통해 추정된 x̂tn에 대해 다음과 같이 정의된다. Latent Consistency Model(LCM)은 픽셀 공간 대신 잠재 공간에서 진행하고 CFG를 적용한다. VideoLCM 사전 훈련된 T2V 모델을 교사 모델로 사용하고 ODE solver로는 DDIM 사용. CFG는 일관성을 위해 훈련 단계에서 교사 모델에서만 고정된 w 값으로 사용되며 추론 시에는 사용..

EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM Prompt tuning과 증류를 통해 핸드폰에서도 빠르게 실행할 수 있는 SAM의 가속 변형. [Project Page] [Github] [arXiv](Current version v1) Abstract Edge device에서의 효율적인 실행을 위한 SAM의 가속 변형인 EdgeSAM 제안. SAM에 비해 40배 빠르고 iPhone 14에서 30 FPS로 실행될 수 있다. EdgeSAM Segment Anything (SAM) Encoder distillation Prompt-in-theloop distillation Lightweight module that embeds the granularity preferences Encoder-Only Knowledge Distillation SAM 인코더 ..

AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [Project Page] [Github] [arXiv](Current version v1) Abstract AnimateDiff에서 정확환 외관 및 모션 제어 능력을 향상한 AnimateZero 제안 Preliminaries: AnimateDiff AnimateDiff 사전 훈련된 T2I 확산 모델에 모션 모듈을 추가하여 비디오 데이터에서 훈련한다. Self-attention의 입력 Zin = {z1, ..., zf}에 위치 임베딩 p를 더하여 일반적인 self-attention을 수행한다. (아래첨자 = token index, 윗첨자 = frame positional index) Method AnimateZero는 공간적 제어와 시간적 제어로 나뉜다. Spatial Appearance Control ..

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding 합성되는 이미지의 identity를 지정하고 제어할 수 있는 T2I 모델 이론보다는 실용에 가까운 논문인 듯? [Project Page] [Github] [arXiv](Current version v1) Abstract Identity(ID) 충실도와 text 제어 가능성을 충족하는 T2I 생성 방법인 PhotoMaker 제안 Method Overview Stacked ID Embedding Encoders 신체부위를 제외한 영역을 노이즈로 채워 배경의 영향을 제거한 뒤 CLIP-ViT 이미지 인코더를 사용하여 사용자가 제공한 N개의 이미지에 대해 이미지 임베딩 {ei}를 추출한다. CLIP 인코더는 대부분 자연 이미지로 훈련되었기 때문에 ID 임베딩을 더 잘 추출할 수 있도록 일부 계층을 fine-tu..

Photorealistic Video Generation with Diffusion Models (W.A.L.T) [Project Page] [arXiv](Current version v1) Abstract 확산 모델링을 통해 photo-realistic 비디오를 생성할 수 있는 Window Attention Latent Transformer(W.A.L.T) 제안 Transformer를 기반으로 한 확산 모델링의 기본 사항에 대해서는 DiT 참고 W.A.L.T Learning Visual Tokens Labeled video data의 부족 때문에 최근 image-video joint training이 선호되는 추세이다. 비디오 시퀀스 x ∈ R(1+T)×H×W×C를 저차원 표현 z ∈ R(1+t)×h×w×c로 압축하길 원한다. 1+t인 이유는 이미지 입력을 처리하기 위함이다. Tokenizer로 MAGVIT-v2의..

PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis [Project Page] [Github] [arXiv](Current version v2) Abstract 낮은 훈련 비용으로 고해상도 이미지 생성이 가능한 transformer 기반 T2I 확산 모델 PixArt-α 제안 Introduction 이미지 생성 품질을 유지하면서 훈련의 계산 요구를 크게 줄이는 3가지 핵심 디자인: Training strategy decomposition : 이미지 생성 작업을 픽셀 분포 학습 - text-image 정렬 학습 - 이미지의 미적 품질 향상으로 분해하는 훈련 패러다임 Efficient T2I Transformer : DiT를 기반으로 cross-attention 추가, class-condition branch 간소화, reparameterization 기술 ..

Self-Conditioning Self-Conditioning in Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning 일반적인 diffusion sampling에서는 x0를 반복적으로 예측하며 이 예측값은 바로 폐기된다. (a) Self-conditioning은 이 예측값을 버리지 않고 다음 예측에 대한 조건으로 사용하는 것이다. (b) x̃0는 이전 예측값을 재사용할 뿐이고 stop_gradient를 통해 역전파가 흐르지 않으므로 무시할 수 있는 만큼의 추가 비용이 발생한다. 훈련 시 일정 확률(e.g. 50%)로 해당 컨디셔닝을 사용한다.

Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation (MAGVIT-v2) Video tokenizer인 MAGVIT의 개선 버전 [Github] [arXiv](Current version v1) 이 논문 리뷰를 쓰던 도중 직전에 올라온 따끈따끈하고 나보다 더 쉽게 설명해 놓은 논문 리뷰를 찾았다. 내가 봐도 설명을 매우 잘해놓았으니 내 논문 리뷰는 그냥 정리 정도로만 참고해도 될 듯. Understanding MagVIT2: Language Model Beats Diffusion: Tokenizer is key to visual generation Abstract LLM을 시각적 생성에 효과적으로 적용하기 위한 video tokenizer인 MAGVIT-v2 제안 Introduction LLM이 시각적 생성에 확산 모델에 뒤처지는 것은 좋은 visual tokenizer가 없..

Coincidence, Categorization, and Consolidation: Learning to Recognize Sounds with Minimal Supervision Clustering 기반 표현 학습으로 audio embedding network 훈련 [arXiv](Current version v1) Introduction Labeling 된 대규모 예제 세트 대신 인간 유아와 비슷한 방법으로 지식을 습득하는 학습 framework. 의미론적으로 구조화된 표현에서 범주형 구조를 발견하기 위해 clustering 절차 제안. Cluster-based active learning procedure를 채택하여 발견된 범주에 약한 label 지정. The Learning Framework 목표는 audio embedding network를 훈련하는 것이다. Generalized Coincidence Prediction 본 논문의 접근 방식은 Look, Listen and ..

Look, Listen and Learn [Github] [arXiv](Current version v2) Abstract 수많은 unlabelled video를 보고 듣고 무엇을 배울 수 있는가? 원시 비디오를 통해 visual, audio network를 처음부터 훈련하여 좋은 visual, audio 표현 얻기 Introduction 이 논문의 목표는 unlabelled video를 보고 듣는 것 만으로 visual, audio 정보를 학습할 수 있는 시스템을 설계하는 것이다. 마치 인간 유아가 배우는 것처럼. Audio-visual correspondence learning 다음 그림과 같은 audio-visual correspondence(AVC) task를 통해 학습한다. 이 작업은 완전히 제약되지 않은 비디오에서 진행되기 때문에 상..

이전 1 ··· 22 23 24 25 26 27 28 ··· 47 다음

티스토리툴바