Attention, Improving
NAT : Attention을 마치 컨볼루션처럼 작동시키는 Neighborhood Attention 제안
FAN : Self attention과 모델 견고성의 관계를 분석
ViT-Adapter : Vanilla ViT에 쉽게 추가할 수 있고 성능이 크게 향상되는 간단하고 효율적인 어댑터
Inception Transformer : ViT와 CNN의 장점을 모두 활용하기 위한 모델. pooling, attention, convolution을 완전히 따로 분리해서 연산하는 것이 특징
EfficientFormer : ViT의 mobile 환경에서의 지연 시간을 획기적으로 줄임
MobileViTv2 : MobileViT에서 새로운 separable self-attention을 추가한 개선 버전
ToMe : 추가 훈련 없이 토큰 병합으로 속도 높이기
I-JEPA : 데이터 증강 없이 의미론적 표현 학습하기
DVT : Positional Embedding에 의해 유발되는 noise artifact를 제거하는 네트워크
- Mixture of Experts
V-MoE : MoE를 ViT에 적용
LIMoE : Multi-modal ViT에 MoE 적용
IMP : 효율적이고 modality 확장이 가능한 LIMoE
SoftMoE : MoE의 문제들을 해결하면서 이점을 유지하는 완전 미분 가능한 MoE
Text-to-Image
Muse : Text-to-image를 위한 VQ masked transformer
- Denoising Model
DiT : 확산 모델에 트랜스포머 백본
PixArt-α : 낮은 훈련 비용으로 고해상도 이미지 생성이 가능한 transformer 기반 T2I 확산 모델
PixArt-δ : PixArt-α + Latent Consistency Model + ControlNet
PixArt-Σ : 사전 훈련된 Diffusion Transformer를 효율적으로 fine-tuning 하여 4K 해상도의 이미지를 생성
FiT : RoPE의 context 확장을 이미지에 적용해 무제한의 해상도와 종횡비의 이미지를 생성
VisionLLaMA : 피라미드 형태의 LLaMA-like vision transformer
Stable Diffusion 3 : Transformer backbone, Rectified flow
SD3-Turbo : Adversarial Diffusion Distillation과 달리 잠재 확산 모델의 generative feature를 활용하여 ADD의 한계를 극복
- AutoRegressive Model
VAR : AR modeling의 next-token 예측을 next-scale 예측으로 재정의
Text-to-Video
W.A.L.T : Transformer 기반의 확산 모델링을 통해 실사 비디오 생성
Image-to-Text
Tag2Text : Detector가 아닌 tagging을 이용한 vision-language pretraining framework
RAM : 이미지 태깅을 위한 foundation model
Detection
DAB-DETR : 쿼리에 대한 더 깊은 이해를 통해 동적 앵커 박스 제시
DN-DETR : 이분 매칭의 문제점을 지적하고 훈련 가속화를 위해 denoising training을 제안
DINO : DAB-DETR, DN-DETR, Deformable DETR의 아이디어를 결합하고 개선한 모델
Mask DINO : DINO를 segmentation까지 확장해 다양한 작업을 지원하는 통합 모델
Grounding DINO : DINO를 open-set detector로 개조
Grounding DINO 1.5 : Grounding DINO에서 탐지 성능, 추론 속도 개선
Depth Estimation
Depth Anything : 단순한 Encoder-Decoder 구조로 모든 이미지를 처리하는 depth foundation model
Depth Anything V2 : Depth Anything의 업그레이드 버전
Style Transfer
StyleDrop : Style transfer with adapter
Super-resolution
HAT : 이미지 초해상도를 위한 ViT
Segmentation
TeViT : Video instance 분할을 위한 ViT
SAM : Segmentation을 위한 최초의 foundation model
PerSAM : SAM 개인화&자동화
HQ-SAM : SAM에서 세부적인 마스크 품질 개선
FastSAM : SAM의 CNN version. 매우 빠름
Semantic-SAM : 사용자가 원하는 level로 무엇이든 분할하고 인식할 수 있는 범용 이미지 분할 모델
EdgeSAM : Prompt tuning과 증류를 통해 핸드폰에서도 빠르게 실행할 수 있는 SAM의 가속 변형
ViTAR : Grid Attention, Fuzzy PE를 통해 낮은 비용으로 다양한 해상도의 이미지 처리
Editing, Inpainting
ASSET : ViT 기반의 고해상도 semantic 분할 편집 아키텍처. NLP 기법들을 차용
Inpaint Anything(IA) : Segment Anything Model(SAM)을 최신 모델들과 함께 다양한 작업에 적용. 마스크 없는 인페인팅
-Video Inpainting
FuseFormer : Video inpainting을 위한 soft split, soft composition
FGT : 시간적, 공간적 transformer를 이용한 flow-guided video inpainting
Propainter : Flow-guided video inpainting 방법론 총집합 + dual-domain propagation + mask-guided sparse transformer
Self-Supervised Learning & Masked Image Modeling & Pretraining for Downstream
ConvMAE : ViT와 CNN의 장점을 결합한 MIM(masked image modeling) 아키텍처
UM-MAE : 계층적 ViT에 MIM 적용. 균일 마스킹 전략
GreenMIM : 계층적 ViT에 MIM 적용. 최적화 알고리즘으로 각 창을 그룹으로 묶음
CutLER : 탐지, 분할을 위한 self supervised learning. Cut and learn 방식으로 작은 물체까지 잘 잡아냄.
EVA : CLIP의 시각적 표현을 10억 개의 피라미터를 가진 ViT 모델로 scale-up 하는 MIM
EVA-02 : Architecture 개선, EVA-01의 visual feature space 계승
EVA-CLIP : EVA에서 훈련 효율성을 주로 개선하여 최대한 큰 배치에서 많이 훈련할 수 있도록 함
EVA-CLIP-18B : EVA-CLIP을 18B까지 확장
Autoregressive Image Model : Autoregressive objective를 통해 ViT를 확장하여 대규모 vision model 구축
CrossMAE : MAE에서 디코더의 self-attention을 제거, 훨씬 빠르고 성능 좋음
CatLIP : Image-text pretraining을 분류 작업으로 재구성하여 성능을 유지하면서도 빠르게 훈련
- Video
MAGVIT-v2 : Video tokenizer인 MAGVIT의 개선 버전
Image Matting
MatteFormer : Trimap에서 추출한 Prior token을 이용해 ViT 기반 image matting 개선
MatAny : 매우 간편한 interactive image matting
MAM : SAM을 활용한 image matting 모델, 다양한 matting 작업 처리 가능
'논문 리뷰 > 논문 분류' 카테고리의 다른 글
짧은 개념 모음 (1) | 2023.12.01 |
---|---|
Language 논문 분류 (0) | 2023.06.11 |
GAN 논문 분류 (0) | 2023.01.11 |
Diffusion 논문 분류 (0) | 2022.09.14 |
기타 논문 분류 (0) | 2022.06.10 |
년도별 (0) | 2022.06.10 |