본문 바로가기

논문 리뷰/Vision Transformer

(63)
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection AbstractGrounding DINO에서 탐지 성능, 추론 속도 개선 [Github][arXiv](2024/05/16 version v1)   Model Training Grounding DINO 1.5 Pro 1. 더 큰 vision backbone 사용: ViT-L2. 훈련 중 negative sample의 비율을 높임3. Grounding-20M이라고 하는 고품질 grounding dataset을 제작하여 훈련함 Grounding DINO 1.5 Edge  Image backbone은 feature enhancer에 multi-scale feature를 제공하는데, 저해상도 feature는 enhancer의 계산량만 가중시킬 뿐 많은 정보가 존재하지 않으므로 P5-level feature만 제..
CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data AbstractImage-text pretraining을 분류 작업으로 재구성하여 성능을 유지하면서도 빠르게 훈련할 수 있는 CatLIP 제안 [Github][arXiv](2024/04/24 version v1)   CatLIP: Contrastive to Categorical Learning 대조 학습을 통한 image-text pretraining을 분류 작업으로 casting 한다.Global pair와의 유사성을 계산해야 하는 대조 학습보다 훨씬 빠르다.  Caption-derived classification labels아래와 같은 과정을 통해 웹에서 image-text 데이터를 수집하여 기존의 CC3M dataset을 증강한다.이 과정에서 WordNet이 사용되므로 class 대신 synset..
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction (VAR) Abstract Next-token 예측을 next-scale 예측으로 재정의하는 차세대 패러다임인 Visual AutoRegressive (VAR) modeling 제안 [Project Page] [Github] [arXiv](2024/04/03 version v1) Method AR modeling을 vision에 적용했을 때 문제점: Image encoder는 양방향 상관관계를 가지며 AR의 단방향 가정과 모순된다. 토큰의 평탄화는 이미지에 내재된 공간성을 방해한다. Visual autoregressive modeling via next-scale prediction Reformulation 다음과 같이 AR modeling을 변경한다. 예측하는 것은 하나의 토큰이 아니라 다음 해상도의 모든 토큰이..
ViTAR: Vision Transformer with Any Resolution Abstract Grid Attention, Fuzzy PE를 통해 낮은 비용으로 다양한 해상도의 이미지를 처리하는 Vision Transformer with Any Resolution (ViTAR) 제안 [arXiv](2024/03/28 version v2) Methods Adaptive Token Merger (ATM) 입력을 일정한 크기의 grid로 나누고 그리드 내 평균 토큰을 Q, 나머지를 K, V로 attention을 수행한 뒤 FFN을 통과한다. 동일한 가중치를 가진 ATM block을 여러 번 반복하여 목표 해상도 Gh × Gw 까지 줄인다. 가장자리의 grid에 패딩 토큰만 존재하는 경우를 방지하기 위해 가장자리 근처의 각 grid에 패딩을 적절하게 배치하는 grid padding을 사용..
Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation (SD3-Turbo, LADD) Abstract 픽셀 기반인 Adversarial Diffusion Distillation과 달리 사전 훈련된 잠재 확산 모델의 generative feature를 활용하여 ADD의 한계를 극복한 Latent Adversarial Diffusion Distillation (LADD) 제안 [arXiv](2024/03/18 version v1) Introduction Adversarial Diffusion Distillation (ADD)에서는 판별기의 backbone으로 DINOv2 encoder를 사용하는데, 이는 단점이 있다. 판별기의 훈련 해상도가 518×518로 제한된다. 판별기의 피드백 수준을 제어할 수 없다. 판별기가 잠재 공간에서 훈련되지 않아 RGB 공간으로 디코딩해야 한다. Backgro..
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (Stable Diffusion 3) [Page] [arXiv](2024/03/05 version v1) 텍스트 생성 능력이 엄청나게 향상되었다. SD3 주요 변경 사항: Transformer backbone, Rectified flow + 자잘한 내용들 많음 Simulation-Free Training of Flows Flow matching의 개념에 대해 설명하는 챕터. 확률분포가 아니라 벡터 필드를 회귀하는구나~ 정도만 알아도 된다. Flow matching에 대한 ChatGPT의 직관적인 설명: z의 probability path: u는 역 ψ매핑에 대한 벡터 필드이다. 일반적인 flow matching 목표는 확률적으로 다루기 어렵다. ϵ에 대한 조건부 벡터 필드를 이용한 flow matching은 결정적이므로 다루기 쉽다. ψ, ..
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation [Project Page] [Github] [arXiv](2024/03/07 version v1) Abstract 사전 훈련된 Diffusion Transformer를 효율적으로 fine-tuning 하여 4K 해상도의 이미지를 생성 레딧 반응을 보면 고품질 데이터의 양이 부족해서 품질이 좋진 않다는 것 같다. Framework Data Analysis Efficient DiT Design Weak-to-Strong Training Strategy Data Analysis Aesthetic scoring model (AES)로 필터링된 33M의 고품질 이미지. 최신 캡션 모델을 통해 캡션의 길이와 정확도를 향상시켰다. Efficient DiT Design Self-attention 계산 비용을 줄이기 위..
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks [Github] [arXiv](2024/03/01 version v1) Abstract 피라미드 형태의 LLaMA-like vision transformer를 통한 이미지 모델링 Method Plain Transformer DiT framework를 기반으로 하며, Stable Diffusion의 사전 훈련된 VAE를 사용했다. LLaMA를 따라 일반 ViT에서 RoPE, SwiGLU 채택. 실험적으로 LayerNorm이 RMSNorm보다 좋았으므로 변경하지 않았다. 패치의 행, 열에 각각 RoPE를 적용하는 2D RoPE를 사용하였다. Pyramid Transformer Self-attention의 효율성을 위해 피라미드 구조를 사용하며, Swin 보다 강력한 Twins의 구조를 채택하였다. (b) T..
FiT: Flexible Vision Transformer for Diffusion Model [Github] [arXiv](2024/02/19 version v1) Abstract RoPE의 context 확장을 이미지에 적용해 무제한의 해상도와 종횡비의 이미지를 생성할 수 있는 Flexible Vision Transformer (FiT) 제안 Flexible Vision Transformer for Diffusion Preliminary 본문의 Preliminary 부분은 LongRoPE 논문 리뷰의 Preliminary에 더 자세히 설명되어 있슴다. 1-D RoPE Rotary Position Embedding NTK-aware Interpolation Scale factor s를 통해 회전 주파수를 축소하여 fine-tuning 없이 context 길이를 확장한다. YaRN (Yet ano..
From Sparse to Soft Mixtures of Experts (SoftMoE) [Github] [arXiv](2023/08/02 version v1) Abstract Mixture of Experts의 문제들을 해결하면서 이점을 유지하는 완전 미분 가능한 SoftMoE 제안 Soft Mixture of Experts SoftMoE는 단일 토큰이 아닌 토큰들의 가중 평균을 할당한다. 사실 이 그림만 봐도 SoftMoE 완벽 이해됨. Algorithm description d 차원인 m개의 토큰이 포함된 입력 시퀀스 X, d 차원 피라미터와 p slots을 가진 n개의 전문가가 포함된 MoE layer. 각 슬롯은 개별적으로 피라미터 Φ를 가진다. Input slots X̃는 다음과 같이 입력 X에 각 슬롯에 대한 피라미터 Φ를 적용하고 softmax를 적용하는 dispatch wei..
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters [Github] [arXiv](2024/02/06 version v1) Abstract 현재까지 가장 크고 강력한 open-source CLIP model인 EVA-CLIP-18B 출시 참고: [EVA-01, EVA-02, EVA-CLIP] Introduction EVA-CLIP을 18B까지 확장. 포화의 징후를 보이지 않아 추가로 확장할 수 있는 잠재력이 있다. Weak-to-Strong Vision Scaling EVA 시리즈의 철학에 따라 작은 모델의 지식을 큰 모델로 증류하고 반복해서 더 큰 모델로 증류한다. EVA-02-CLIP-E/14+를 교사로 EVA-02를 18B까지 확장하고 데이터셋은 대부분 고정된 상태로 유지된다. 또한 EVA-18B(≠ EVA-CLIP-18B)는 QKV projecti..
Rethinking Patch Dependence for Masked Autoencoders (CrossMAE) [Project Page] [Github] [arXiv](2024/01/25 version v1) Abstract Masked Autoencoder에서 디코더의 self-attention을 제거, 훨씬 빠르고 성능 좋음 CrossMAE Preliminaries: Masked Autoencoders Reconstruction with Cross-Attention Partial Reconstruction Inter-block Attention Preliminaries: Masked Autoencoders MAE [논문공부] (자세한 리뷰) Masked Autoencoders are Scalable Vision Learners 들어가며: Masked Autoencoders Are Scalable Vision ..