Convolution
Can CNNs Be More Robust Than Transformers? : CNN과 transformer의 모델 견고성 비교
SLaK : 커널 분해. 커널 크기를 51x51까지 확장
ConvNeXt V2 : 순수 Conv로만 이루어낸 ConvNeXt + MAE
FastSAM : SAM의 CNN version. 매우 빠름
Segmentation
ITIS : 사용자 클릭을 반복적으로 입력하여 학습하는 segmentation framework
RITM : 클릭 기반 interative segmentation, ITIS의 개선 버전
Detection
TOOD : classification과 localization을 명시적으로 정렬하는 새로운 정렬 헤드 T-Head
YOLO-World : 빠르고 정확하게 open-vocabulary detection이 가능한 YOLO 기반 모델
YOLOv9 : Information bottleneck 완화
Editing
-Video
Layered Neural Atlas : 비디오 프레임을 2D atlas로 분해하고 다시 비디오에 매핑
Inpainting
-Image Inpainting
Contextual Attention : Contextual attention으로 image inpainting 개선
-Video Inpainting
Deep Flow-Guided Video Inpainting : Optical flow를 통한 video inpainting 방법
FGVC : Flow edge를 먼저 완성, non-local flow connection 도입
E2FGVI : Flow-based end-to-end video inpainting framework
Portrait Animation
TPS Motion Model : 비지도 모션 전송 프레임워크
LivePortrait : 실용적인 사용을 위해 더 나은 일반화, 제어 가능성 및 효율성에 초점을 맞춘 portrait animation framework
3D
Manhattan SDF : Manhattan-world 가정에 기초하여 3D 장면을 재구성. 특히 벽과 바닥이 깔끔하게 나옴
FocalsConv : 불균일 3D 희소 데이터를 효율적으로 처리하기 위한 Focal sparse convolution 제안
Depth Estimation
MiDaS : 다양한 깊이 추정 데이터셋에 통합적으로 적용 가능한 손실함수 개발. 3D movies 데이터셋
Dataset
StyleGAN-Human : 인간 전신 이미지를 훈련하며 얻은 통찰을 기록. Stylish-Humans-HQ 데이터셋 제작
ArtBench : Artwork 생성 벤치마킹을 위한 새로운 데이터세트
Analyzing the remaining mistakes on ImageNet : ImageNet 데이터 세트의 오류들을 자세히 분석
Audio
Look, Listen and Learn : 원시 비디오를 통한 visual-audio 표현 학습
Coincidence, Categorization, and Consolidation : Clustering 기반 표현 학습으로 audio embedding network 훈련
SoundStream : 오디오 코덱 신경망
EnCodec : 오디오 코덱 신경망. SoundStream 개선 버전
MusicGen : 주어진 코드북 패턴에 따라 단일 transformer로 음악 생성
- TTS
BASE TTS : 100K 시간의 음성 데이터에 대해 훈련된 대규모 AR TTS model
NaturalSpeech 3 : 음성의 다양한 속성을 각 하위 공간으로 인수분해하여 개별적으로 생성
Model Pruning
Accelerated Sparse Neural Training : Backward pass에서도 희소 구조를 보존하여 훈련 가속화
WoodFisher : Hessian matrix를 효율적인 fisher matrix로 근사하여 가지치기에 활용
oBERT : 대규모 모델의 경우 블록으로 나누어 블록째로 가지치기
OBC : 효율적인 전역 양자화, 양자화∙가지치기 통합
SparseGPT : Inverse hessian matrix 재사용, 유효한 가중치만 업데이트
Your Transformer is Secretly Linear : Transformer decoder layer 간의 높은 선형성을 식별하고 이를 활용할 방법 제안
Quantization
LAPQ : 낮은 비트폭 양자화에서 2차 최적화를 통해 Layer-wise quantization을 가능하게 함
GPTQ : 양자화 일괄 처리, Cholesky decomposition
Hardware Efficiency
- Parallelism
GPipe : 레이어 그룹을 파티션으로 나누어 병렬화
PipeDream : 1F1B 알고리즘을 통해 유휴시간 없는 파이프라인 병렬화
PipeDream-2BW, Flush : PipeDream의 메모리 부담을 개선
Zero Bubble Pipeline Parallelism : 역전파 분할, 자동 스케줄링, 동기화 우회를 통해 zero bubble 달성
Fuyou : 단일 GPU 상용 서버에서 대규모 모델을 fine-tuning 할 수 있도록 ZeRO-Infinity를 개선
Reinforcement Learning
AWAC : Weighted likeihood를 통해 online fine-tuning 개선
Mixtures of Experts Unlock Parameter Scaling for Deep RL : 강화 학습에서 MoE를 통한 피라미터 확장으로 성능 향상
DIAMOND : Diffusion model이 생성한 world에서 훈련된 RL agent
Energy-Based Models
Energy-Based Models : Langevin dynamics를 이용한 EBM sampling
EBM Compositionality : EBM이 확률 분포를 결합함으로써 분포의 결합, 분리, 부정을 정의할 수 있다는 것을 보여줌
State Space Models
S4 : S4 피라미터화를 기반으로 state space를 효율적으로 계산
- Mamba
Mamba : SSM에 선택성을 부여하고 하드웨어 최적화
MoE-Mamba : MoE + Mamba
Vision Mamba : 2방향 스캔을 통해 시각 모델링이 가능한 Mamba
VMamba : 4방향 스캔을 통해 시각 모델링이 가능한 Mamba
Jamba : Transformer + Mamba + MoE
Samba : Mamba와 Sliding Window를 계층적으로 결합한 hybrid architecture
- Gated Convolution
Zoology : Gated Convolution-Attention Hybrid model을 통해 multi-query associative recall 작업에서의 성능 향상
Sketch
CLIPasso : 다양한 추상회 정도의 스케치 생성
Sketch Video Synthesis : 비디오에서 스케치 생성
Typography
Dynamic Typography : 사용자 프롬프트에 따라 텍스트에 움직임을 불어넣는 end-to-end 최적화 프레임워크
Etc.
Masked Siamese Network : 샴 네트워크에 MIM(masked image modeling) 적용
Measuring the Intrinsic Dimension of Objective Landscapes : 네트워크의 고유 차원 측정
Animated Drawings : 아이들의 그림을 움직이게 하기
ImageBind : Image-paired data로 모든 양식 통합하기
Online Softmax : 더 적은 메모리 액세스로 softmax 계산
Fast Feedforward Networks(FFF) : Feedforward를 나눈 후 이진트리를 통해 다음 hidden node를 선택
LP-FT : Liner Probing 후 Fine-Tuning 하면 더 학습 잘 됨
SearchFormer : Transformer를 통해 maze, sokoban puzzle과 같은 복잡한 의사 결정 작업 해결
Is Flash Attention Stable? : 훈련 불안정의 잠재적인 원인인 수치 편차를 정량화하는 방법 제안
The Platonic Representation Hypothesis : 대부분의 deep networks는 modality에 상관 없이 결국 단일 표현 공간으로 수렴될 것이며, 이를 platonic representation이라고 명명
DeepThinking Systems : 반복 아키텍처, 반복 알고리즘을 통해 작은 문제를 해결할 수 있는 알고리즘을 반복하여 더 크고 복잡한 문제를 해결할 수 있도록 알고리즘 외삽을 수행
'논문 리뷰 > 논문 분류' 카테고리의 다른 글
짧은 개념 모음 (1) | 2023.12.01 |
---|---|
Language 논문 분류 (0) | 2023.06.11 |
GAN 논문 분류 (0) | 2023.01.11 |
Vision Transformer 논문 분류 (0) | 2023.01.11 |
Diffusion 논문 분류 (0) | 2022.09.14 |
년도별 (0) | 2022.06.10 |