전체 글 (582) 썸네일형 리스트형 PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis [Project Page] [Github] [arXiv](Current version v2) Abstract 낮은 훈련 비용으로 고해상도 이미지 생성이 가능한 transformer 기반 T2I 확산 모델 PixArt-α 제안 Introduction 이미지 생성 품질을 유지하면서 훈련의 계산 요구를 크게 줄이는 3가지 핵심 디자인: Training strategy decomposition : 이미지 생성 작업을 픽셀 분포 학습 - text-image 정렬 학습 - 이미지의 미적 품질 향상으로 분해하는 훈련 패러다임 Efficient T2I Transformer : DiT를 기반으로 cross-attention 추가, class-condition branch 간소화, reparameterization 기술 .. Self-Conditioning Self-Conditioning in Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning 일반적인 diffusion sampling에서는 x0를 반복적으로 예측하며 이 예측값은 바로 폐기된다. (a) Self-conditioning은 이 예측값을 버리지 않고 다음 예측에 대한 조건으로 사용하는 것이다. (b) x̃0는 이전 예측값을 재사용할 뿐이고 stop_gradient를 통해 역전파가 흐르지 않으므로 무시할 수 있는 만큼의 추가 비용이 발생한다. 훈련 시 일정 확률(e.g. 50%)로 해당 컨디셔닝을 사용한다. Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation (MAGVIT-v2) Video tokenizer인 MAGVIT의 개선 버전 [Github] [arXiv](Current version v1) 이 논문 리뷰를 쓰던 도중 직전에 올라온 따끈따끈하고 나보다 더 쉽게 설명해 놓은 논문 리뷰를 찾았다. 내가 봐도 설명을 매우 잘해놓았으니 내 논문 리뷰는 그냥 정리 정도로만 참고해도 될 듯. Understanding MagVIT2: Language Model Beats Diffusion: Tokenizer is key to visual generation Abstract LLM을 시각적 생성에 효과적으로 적용하기 위한 video tokenizer인 MAGVIT-v2 제안 Introduction LLM이 시각적 생성에 확산 모델에 뒤처지는 것은 좋은 visual tokenizer가 없.. Coincidence, Categorization, and Consolidation: Learning to Recognize Sounds with Minimal Supervision Clustering 기반 표현 학습으로 audio embedding network 훈련 [arXiv](Current version v1) Introduction Labeling 된 대규모 예제 세트 대신 인간 유아와 비슷한 방법으로 지식을 습득하는 학습 framework. 의미론적으로 구조화된 표현에서 범주형 구조를 발견하기 위해 clustering 절차 제안. Cluster-based active learning procedure를 채택하여 발견된 범주에 약한 label 지정. The Learning Framework 목표는 audio embedding network를 훈련하는 것이다. Generalized Coincidence Prediction 본 논문의 접근 방식은 Look, Listen and .. Look, Listen and Learn [Github] [arXiv](Current version v2) Abstract 수많은 unlabelled video를 보고 듣고 무엇을 배울 수 있는가? 원시 비디오를 통해 visual, audio network를 처음부터 훈련하여 좋은 visual, audio 표현 얻기 Introduction 이 논문의 목표는 unlabelled video를 보고 듣는 것 만으로 visual, audio 정보를 학습할 수 있는 시스템을 설계하는 것이다. 마치 인간 유아가 배우는 것처럼. Audio-visual correspondence learning 다음 그림과 같은 audio-visual correspondence(AVC) task를 통해 학습한다. 이 작업은 완전히 제약되지 않은 비디오에서 진행되기 때문에 상.. MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model [Project Page] [Github] [arXiv](Current version v1) Abstract 모션 시퀀스에 따른 비디오를 생성할 수 있는 MagicAnimate 제안 Method 참조 이미지 Iref, K 프레임의 모션 시퀀스 p1:K이 주어질 때 비디오 I1:K을 생성하는 것이 목표이다. Temporal Consistency Modeling Temporal attention layer가 추가된 U-Net FT. Appearance Encoder Iref의 feature를 추출하는 encoder. 추출된 feature는 zt에 concat 하여 spatial self-attention에 사용됨. Animation Pipeline Motion transfer OpenPose 대신 특정 모션.. SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions Global 지각 손실을 통해 매끄럽고 일관적인 연결 가능 [Project Page] [Github] [arXiv](Current version v3) Abstract 이음새 없이 일관된 몽타주를 생성할 수 있는 SyncDiffusion 제안 Introduction 중첩된 영역을 고정 (맨 윗줄): 비현실적임. 중첩된 영역을 평균화 (중간, MultiDiffusion): 영역 간의 내용이나 스타일이 다를 수 있음. SyncDiffusion: 각 단계에서 예측된 이미지의 지각적 유사성 손실을 통해 충실도를 향상함. Backgrounds MultiDiffusion 전체 파노라마 이미지 z, 각 window xi, 파노라마에서 해당 window의 마스크 mi, Tz → i는 z를 i번째 window에 매핑하고.. Style Aligned Image Generation via Shared Attention [Project Page] [Github] [arXiv](Current version v1) Abstract Attention sharing을 통해 스타일 일관성을 유지하는 StyleAligned 제안 Method overview Style Aligned Image Set Generation 우리의 목표는 스타일을 공유하는 이미지 세트 I1,..., In을 생성하는 것이다. 핵심 통찰은 attention layer를 공유하는 것이다. (배치의 모든 이미지가 K, V를 공유함) 하지만 이런 무식한 방법은 콘텐츠 유출을 초래한다. 공룡 이미지의 초록색이 유니콘 이미지로 번진 것을 볼 수 있다. 한 가지 해결책으로 배치의 첫 번째 이미지에만 attention을 공유한다. 이미지들은 유사한 스타일을 공유하고 있.. DeepCache: Accelerating Diffusion Models for Free [Project Page] [Github] [arXiv](Current version v2) Abstract 인접한 denoising stage에서 feature를 캐시하여 속도를 향상하는 DeepCache 제안 Methodology Feature Redundancy in Sequential Denoising Observation: Denoising process의 인접한 step은 high-level feature에서 상당한 시간적 유사성을 보여준다. Deep Cache For Diffusion Models Cacheable Features in denosing 이전 업샘플링 블록의 feature를 다음과 같이 캐시하고 다음 t-1 단계에서는 skip branch에 필요한 것들만 계산하고 main br.. X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model Version이 다른 plug-in과 text-to-image model 호환되게 하기 [Project Page] [Github] [arXiv](Current version v2) Abstract 이전 text-to-image 확산 모델에서 사용된 다양한 plugin을 업그레이드된 모델에 활용할 수 있도록 하는 범용 어댑터인 X-Adapter 제안 X-Adapter Stable Diffusion 1.5v를 기반으로 구축. X-adapter는 기본 모델의 복사본을 그대로 가지고 있다. Upgraded model은 SDXL가 기준이고 mapping layer는 마지막 3개의 decoding block에 배치한다. 기본 모델의 multi-scale feature map Fnbase, n번째 mapper Fn(.. Generative Powers of Ten [Project Page] [arXiv](Current version v1) Abstract 효과적으로 multi-scale content를 생성할 수 있는 joint multi-scale diffusion sampling 제안 영화 Powers of Ten (1977). 은하계에서 세포까지의 연속적인 줌을 보여줌. Method Zoom level i에서 각 prompt yi를 통해 일관된 xi 이미지 시퀀스를 생성하는 것이 목표이다. Zoom Stack Representation 각 zoom level i에 따른 L과 x: Image rendering Rendering operator Π는 정해진 zoom level의 이미지를 반환한다. Di(x)는 x를 확대/축소 정도 pi에 따라 x를 축소한다. M.. GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation 대화 흐름과 상황에 따라 자연스럽게 video caption 생성 [Project Page] [Github] [arXiv](Current version v1) Abstract LLM에 비디오 이해와 생성 능력을 부여하는 multi-model framework인 GPT4Video 제안 Introduction 기존의 Multi-modal Large Language Model은 multi-modal 처리에 중점을 두고 이해와 생성 능력은 부족하다. MiniGPT-5, NExt-GPT와 같은 모델들은 generative voken을 통해 다양한 양식으로 확장하였지만 generative voken은 LLM의 잠재력을 완전히 활용하지 못하며, 모델을 업그레이드하려는 경우 재교육을 해야 하는 등 유연성이 부족하다. .. 이전 1 ··· 25 26 27 28 29 30 31 ··· 49 다음