본문 바로가기

논문 리뷰/논문 분류

Vision Transformer 논문 분류

Attention, Improving

NAT : Attention을 마치 컨볼루션처럼 작동시키는 Neighborhood Attention 제안

FAN : Self attention과 모델 견고성의 관계를 분석

ViT-Adapter : Vanilla ViT에 쉽게 추가할 수 있고 성능이 크게 향상되는 간단하고 효율적인 어댑터 

Inception Transformer : ViT와 CNN의 장점을 모두 활용하기 위한 모델. pooling, attention, convolution을 완전히 따로 분리해서 연산하는 것이 특징

EfficientFormer : ViT의 mobile 환경에서의 지연 시간을 획기적으로 줄임

MobileViTv2 : MobileViT에서 새로운 separable self-attention을 추가한 개선 버전

ToMe : 추가 훈련 없이 토큰 병합으로 속도 높이기

I-JEPA : 데이터 증강 없이 의미론적 표현 학습하기

DVT : Positional Embedding에 의해 유발되는 noise artifact를 제거하는 네트워크

- Mixture of Experts

V-MoE : MoE를 ViT에 적용

LIMoE : Multi-modal ViT에 MoE 적용

IMP : 효율적이고 modality 확장이 가능한 LIMoE

SoftMoE : MoE의 문제들을 해결하면서 이점을 유지하는 완전 미분 가능한 MoE

 

Text-to-Image

Muse : Text-to-image를 위한 VQ masked transformer

- Denoising Model

DiT : 확산 모델에 트랜스포머 백본

PixArt-α : 낮은 훈련 비용으로 고해상도 이미지 생성이 가능한 transformer 기반 T2I 확산 모델

PixArt-δ : PixArt-α + Latent Consistency Model + ControlNet

PixArt-Σ : 사전 훈련된 Diffusion Transformer를 효율적으로 fine-tuning 하여 4K 해상도의 이미지를 생성

FiT : RoPE의 context 확장을 이미지에 적용해 무제한의 해상도와 종횡비의 이미지를 생성

VisionLLaMA : 피라미드 형태의 LLaMA-like vision transformer

Stable Diffusion 3 : Transformer backbone, Rectified flow

SD3-Turbo : Adversarial Diffusion Distillation과 달리 잠재 확산 모델의 generative feature를 활용하여 ADD의 한계를 극복

- AutoRegressive Model

VAR : AR modeling의 next-token 예측을 next-scale 예측으로 재정의

 

Text-to-Video

W.A.L.T : Transformer 기반의 확산 모델링을 통해 실사 비디오 생성

 

Image-to-Text

Tag2Text : Detector가 아닌 tagging을 이용한 vision-language pretraining framework

RAM : 이미지 태깅을 위한 foundation model

 

Detection

DAB-DETR : 쿼리에 대한 더 깊은 이해를 통해 동적 앵커 박스 제시

DN-DETR : 이분 매칭의 문제점을 지적하고 훈련 가속화를 위해 denoising training을 제안

DINO : DAB-DETR, DN-DETR, Deformable DETR의 아이디어를 결합하고 개선한 모델

Mask DINO : DINO를 segmentation까지 확장해 다양한 작업을 지원하는 통합 모델

Grounding DINO : DINO를 open-set detector로 개조

Grounding DINO 1.5 : Grounding DINO에서 탐지 성능, 추론 속도 개선

 

Depth Estimation

Depth Anything : 단순한 Encoder-Decoder 구조로 모든 이미지를 처리하는 depth foundation model

Depth Anything V2 : Depth Anything의 업그레이드 버전

 

Style Transfer

StyleDrop : Style transfer with adapter

 

Super-resolution

HAT : 이미지 초해상도를 위한 ViT

 

Segmentation

TeViT : Video instance 분할을 위한 ViT

SAM : Segmentation을 위한 최초의 foundation model

PerSAM : SAM 개인화&자동화

HQ-SAM : SAM에서 세부적인 마스크 품질 개선

FastSAM : SAM의 CNN version. 매우 빠름

Semantic-SAM : 사용자가 원하는 level로 무엇이든 분할하고 인식할 수 있는 범용 이미지 분할 모델

EdgeSAM : Prompt tuning과 증류를 통해 핸드폰에서도 빠르게 실행할 수 있는 SAM의 가속 변형

ViTAR : Grid Attention, Fuzzy PE를 통해 낮은 비용으로 다양한 해상도의 이미지 처리

 

Editing, Inpainting

ASSET : ViT 기반의 고해상도 semantic 분할 편집 아키텍처. NLP 기법들을 차용

Inpaint Anything(IA) : Segment Anything Model(SAM)을 최신 모델들과 함께 다양한 작업에 적용. 마스크 없는 인페인팅

-Video Inpainting

FuseFormer : Video inpainting을 위한 soft split, soft composition

FGT : 시간적, 공간적 transformer를 이용한 flow-guided video inpainting

Propainter : Flow-guided video inpainting 방법론 총집합 + dual-domain propagation + mask-guided sparse transformer

 

Self-Supervised Learning & Masked Image Modeling & Pretraining for Downstream 

ConvMAE : ViT와 CNN의 장점을 결합한 MIM(masked image modeling) 아키텍처

UM-MAE : 계층적 ViT에 MIM 적용. 균일 마스킹 전략

GreenMIM : 계층적 ViT에 MIM 적용. 최적화 알고리즘으로 각 창을 그룹으로 묶음

CutLER : 탐지, 분할을 위한 self supervised learning. Cut and learn 방식으로 작은 물체까지 잘 잡아냄. 

EVA : CLIP의 시각적 표현을 10억 개의 피라미터를 가진 ViT 모델로 scale-up 하는 MIM

EVA-02 : Architecture 개선, EVA-01의 visual feature space 계승

EVA-CLIP : EVA에서 훈련 효율성을 주로 개선하여 최대한 큰 배치에서 많이 훈련할 수 있도록 함

EVA-CLIP-18B : EVA-CLIP을 18B까지 확장

Autoregressive Image Model : Autoregressive objective를 통해 ViT를 확장하여 대규모 vision model 구축

CrossMAE : MAE에서 디코더의 self-attention을 제거, 훨씬 빠르고 성능 좋음

CatLIP : Image-text pretraining을 분류 작업으로 재구성하여 성능을 유지하면서도 빠르게 훈련

- Video

MAGVIT-v2 : Video tokenizer인 MAGVIT의 개선 버전

 

Image Matting

MatteFormer : Trimap에서 추출한 Prior token을 이용해 ViT 기반 image matting 개선

MatAny : 매우 간편한 interactive image matting

MAM : SAM을 활용한 image matting 모델, 다양한 matting 작업 처리 가능

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'논문 리뷰 > 논문 분류' 카테고리의 다른 글

짧은 개념 모음  (1) 2023.12.01
Language 논문 분류  (0) 2023.06.11
GAN 논문 분류  (0) 2023.01.11
Diffusion 논문 분류  (0) 2022.09.14
기타 논문 분류  (0) 2022.06.10
년도별  (0) 2022.06.10