논문 리뷰/Vision Transformer (64) 썸네일형 리스트형 Rethinking Patch Dependence for Masked Autoencoders (CrossMAE) [Project Page] [Github] [arXiv](2024/01/25 version v1) Abstract Masked Autoencoder에서 디코더의 self-attention을 제거, 훨씬 빠르고 성능 좋음 CrossMAE Preliminaries: Masked Autoencoders Reconstruction with Cross-Attention Partial Reconstruction Inter-block Attention Preliminaries: Masked Autoencoders MAE [논문공부] (자세한 리뷰) Masked Autoencoders are Scalable Vision Learners 들어가며: Masked Autoencoders Are Scalable Vision .. Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data MiDaS + Perturbation이 주입된 대규모 unlabeled data + Semantic feature loss 단순한 Encoder-Decoder 구조로 모든 이미지를 처리하는 depth foundation model [Project Page] [Github] [arXiv](2024/01/19 version v1) Abstract 기술 모듈을 추구하지 않고 어떠한 상황에서도 모든 이미지를 다루는 단순하면서도 강력한 depth foundation model을 구축하는 것을 목표로 한다. Depth Anything Learning Labeled Images Unleashing the Power of Unlabeled Images Semantic-Assisted Perception Labeled .. Scalable Pre-training of Large Autoregressive Image Models (AIM) [Github] [arXiv](2024/01/16 version v1) Abstract Autoregressive objective를 통해 ViT를 크게 확장하여 downstream task에서 강력한 성능을 보여주는 대규모 비전 모델인 AIM(Autoregressive Image Model) 구축 Pre-training Dataset Common Crawl에서 Data Filtering Nework로 필터링된 12.8B text-image pair가 있는 DFN dataset에서 alignment score가 상위 15%인 DFN-2B dataset이 있다. LLM 사전 훈련의 일반적인 관행에서 착안하여 p = 0.8로 DFN-2B에서 샘플링하고 p = 0.2로 ImageNet-1K에서 이미지를 샘플링.. PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models [Project Page] [Github] [arXiv](2024/01/10 version v1) Abstract PixArt-α에 Latent Consistency Model과 ControlNet을 통합한 PixArt-δ 소개. LCM in PixArt-δ Algorithm and Modification Training Efficiency and Inference Speedup Training Details Algorithm and Modification LCD Algorithm 가변 guidance scale w 대신 고정된 w를 사용하는 것 외에는 LCM과 똑같다. Effect of Hyper-parameters bs = batch size, w_fix = 고정된 w, w_Embed = 가변 w C.. Denoising Vision Transformers (DVT) Positional Embedding에 의해 유발되는 noise artifact를 제거하는 네트워크 [Project Page] [Github] [arXiv](2024/01/05 version v1) Abstract ViT의 출력에서 나타나는 noise artifact를 분리하고 제거할 수 있는 Denoising Vision Transformers (DVT) 제안 Introduction 아래 그림은 원시 ViT 출력에 클러스터링 알고리즘을 적용하면 노이즈가 많은 클러스터가 생성된다는 것을 보여준다. 연구진은 3가지 이유로 위치 임베딩이 이러한 현상에 기여한다고 가정했다. Zero-tensor를 입력해도 유사한 노이즈 패턴이 발생한다. 위치 임베딩 없이 훈련한 모델에서는 노이즈 패턴이 발생하지 않는다. 입력.. Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception (IMP) [arXiv](Current version v2) Abstract 간단하고 확장 가능한 multi-modal multi-task 훈련 및 모델링 접근 방식인 Integrated Multimodal Perception(IMP) 제안 Introduction 기존 데이터셋을 최대한 활용하고 작업 또는 손실 함수의 모든 조합에 대해 훈련할 수 있으며 새로운 데이터셋, 작업, 손실 함수를 추가해도 속도가 느려지지 않도록 하나의 multi-modal model을 훈련할 수 있는 방법을 탐색한다. 최근에 개발된 JAX primitives를 통해 AGD(Alternating Gradient Descent)와 MoE(Mixture of Experts)를 구현함으로써 유사한 배치 크기에서 2~8배의 계산이 필요한 여러 m.. Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts [Github] [arXiv](Current version v1) Abstract Multi-modal 학습이 가능한 MoE인 LIMoE(Language-Image MoE)를 제안 Multimodal Mixture of Experts Multimodal contrastive learning 같은 pair data (i, t)끼리 더 가깝도록, unpair data가 멀도록 훈련됨. The LIMoE Architecture 각각의 modality를 동일한 차원으로 투영하는 각각의 projection layer와 공유 transformer encoder로 입력을 처리하고 per-modality weight matrices Wm을 통해 projection한 후 Lj를 계산한다. Sparse MoE backbo.. Scaling Vision with Sparse Mixture of Experts (V-MoE) [Github] [arXiv](Current version v1) Abstract MoE를 ViT에 적용하여 절반의 계산 비용으로 동일한 성능을 내는 V-MoE 제안 The Vision Mixture of Experts Conditional Computation with MoEs MoE는 라우팅 함수 g()를 통해 입력을 각 전문가 ei(x)에 할당한다. g(x)가 희소한 경우 계산은 super-linear 하다. MoEs for Vision MLP layer에는 2개의 feedforward와 non-linearity가 있다. MLP layer 중 일부를 MoE layer로 대체한다. 위 그림이 좀 헷갈릴 수 있는데, 계산 효율성을 위해 배치 이미지들을 각 분산 장치에 입력하고, MoE layer에서 토.. EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM Prompt tuning과 증류를 통해 핸드폰에서도 빠르게 실행할 수 있는 SAM의 가속 변형. [Project Page] [Github] [arXiv](Current version v1) Abstract Edge device에서의 효율적인 실행을 위한 SAM의 가속 변형인 EdgeSAM 제안. SAM에 비해 40배 빠르고 iPhone 14에서 30 FPS로 실행될 수 있다. EdgeSAM Segment Anything (SAM) Encoder distillation Prompt-in-theloop distillation Lightweight module that embeds the granularity preferences Encoder-Only Knowledge Distillation SAM 인코더 .. Photorealistic Video Generation with Diffusion Models (W.A.L.T) [Project Page] [arXiv](Current version v1) Abstract 확산 모델링을 통해 photo-realistic 비디오를 생성할 수 있는 Window Attention Latent Transformer(W.A.L.T) 제안 Transformer를 기반으로 한 확산 모델링의 기본 사항에 대해서는 DiT 참고 W.A.L.T Learning Visual Tokens Labeled video data의 부족 때문에 최근 image-video joint training이 선호되는 추세이다. 비디오 시퀀스 x ∈ R(1+T)×H×W×C를 저차원 표현 z ∈ R(1+t)×h×w×c로 압축하길 원한다. 1+t인 이유는 이미지 입력을 처리하기 위함이다. Tokenizer로 MAGVIT-v2의.. PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis [Project Page] [Github] [arXiv](Current version v2) Abstract 낮은 훈련 비용으로 고해상도 이미지 생성이 가능한 transformer 기반 T2I 확산 모델 PixArt-α 제안 Introduction 이미지 생성 품질을 유지하면서 훈련의 계산 요구를 크게 줄이는 3가지 핵심 디자인: Training strategy decomposition : 이미지 생성 작업을 픽셀 분포 학습 - text-image 정렬 학습 - 이미지의 미적 품질 향상으로 분해하는 훈련 패러다임 Efficient T2I Transformer : DiT를 기반으로 cross-attention 추가, class-condition branch 간소화, reparameterization 기술 .. Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation (MAGVIT-v2) Video tokenizer인 MAGVIT의 개선 버전 [Github] [arXiv](Current version v1) 이 논문 리뷰를 쓰던 도중 직전에 올라온 따끈따끈하고 나보다 더 쉽게 설명해 놓은 논문 리뷰를 찾았다. 내가 봐도 설명을 매우 잘해놓았으니 내 논문 리뷰는 그냥 정리 정도로만 참고해도 될 듯. Understanding MagVIT2: Language Model Beats Diffusion: Tokenizer is key to visual generation Abstract LLM을 시각적 생성에 효과적으로 적용하기 위한 video tokenizer인 MAGVIT-v2 제안 Introduction LLM이 시각적 생성에 확산 모델에 뒤처지는 것은 좋은 visual tokenizer가 없.. 이전 1 2 3 4 5 6 다음