본문 바로가기

논문 리뷰/논문 분류

기타 논문 분류

Convolution

Can CNNs Be More Robust Than Transformers?CNN과 transformer의 모델 견고성 비교

SLaK : 커널 분해. 커널 크기를 51x51까지 확장

ConvNeXt V2 : 순수 Conv로만 이루어낸 ConvNeXt + MAE

FastSAM : SAM의 CNN version. 매우 빠름

 

Segmentation

ITIS : 사용자 클릭을 반복적으로 입력하여 학습하는 segmentation framework

RITM : 클릭 기반 interative segmentation, ITIS의 개선 버전

 

Detection

TOOD : classification과 localization을 명시적으로 정렬하는 새로운 정렬 헤드 T-Head

YOLO-World : 빠르고 정확하게 open-vocabulary detection이 가능한 YOLO 기반 모델

YOLOv9 : Information bottleneck 완화

 

Editing

-Video

Layered Neural Atlas : 비디오 프레임을 2D atlas로 분해하고 다시 비디오에 매핑

 

Inpainting

-Image Inpainting

Contextual Attention : Contextual attention으로 image inpainting 개선

-Video Inpainting

Deep Flow-Guided Video Inpainting : Optical flow를 통한 video inpainting 방법

FGVC : Flow edge를 먼저 완성, non-local flow connection 도입

E2FGVI : Flow-based end-to-end video inpainting framework

 

Portrait Animation

TPS Motion Model : 비지도 모션 전송 프레임워크

LivePortrait : 실용적인 사용을 위해 더 나은 일반화, 제어 가능성 및 효율성에 초점을 맞춘 portrait animation framework

 

3D

Manhattan SDF : Manhattan-world 가정에 기초하여 3D 장면을 재구성. 특히 벽과 바닥이 깔끔하게 나옴

FocalsConv : 불균일 3D 희소 데이터를 효율적으로 처리하기 위한 Focal sparse convolution 제안

 

Depth Estimation

MiDaS : 다양한 깊이 추정 데이터셋에 통합적으로 적용 가능한 손실함수 개발. 3D movies 데이터셋

 

Dataset

StyleGAN-Human : 인간 전신 이미지를 훈련하며 얻은 통찰을 기록. Stylish-Humans-HQ 데이터셋 제작

ArtBench : Artwork 생성 벤치마킹을 위한 새로운 데이터세트

Analyzing the remaining mistakes on ImageNet : ImageNet 데이터 세트의 오류들을 자세히 분석

 

Audio

Look, Listen and Learn : 원시 비디오를 통한 visual-audio 표현 학습

Coincidence, Categorization, and Consolidation : Clustering 기반 표현 학습으로 audio embedding network 훈련

SoundStream : 오디오 코덱 신경망

EnCodec : 오디오 코덱 신경망. SoundStream 개선 버전

MusicGen : 주어진 코드북 패턴에 따라 단일 transformer로 음악 생성

- TTS

BASE TTS : 100K 시간의 음성 데이터에 대해 훈련된 대규모 AR TTS model

NaturalSpeech 3 : 음성의 다양한 속성을 각 하위 공간으로 인수분해하여 개별적으로 생성

 

Model Pruning

Accelerated Sparse Neural Training : Backward pass에서도 희소 구조를 보존하여 훈련 가속화

WoodFisher : Hessian matrix를 효율적인 fisher matrix로 근사하여 가지치기에 활용

oBERT : 대규모 모델의 경우 블록으로 나누어 블록째로 가지치기

OBC : 효율적인 전역 양자화, 양자화∙가지치기 통합

SparseGPT : Inverse hessian matrix 재사용, 유효한 가중치만 업데이트

Your Transformer is Secretly Linear : Transformer decoder layer 간의 높은 선형성을 식별하고 이를 활용할 방법 제안

 

Quantization

LAPQ : 낮은 비트폭 양자화에서 2차 최적화를 통해 Layer-wise quantization을 가능하게 함

GPTQ : 양자화 일괄 처리, Cholesky decomposition

 

Hardware Efficiency

- Parallelism

GPipe : 레이어 그룹을 파티션으로 나누어 병렬화

PipeDream : 1F1B 알고리즘을 통해 유휴시간 없는 파이프라인 병렬화

PipeDream-2BW, Flush : PipeDream의 메모리 부담을 개선

Zero Bubble Pipeline Parallelism : 역전파 분할, 자동 스케줄링, 동기화 우회를 통해 zero bubble 달성

Fuyou : 단일 GPU 상용 서버에서 대규모 모델을 fine-tuning 할 수 있도록 ZeRO-Infinity를 개선

 

Reinforcement Learning

AWAC : Weighted likeihood를 통해 online fine-tuning 개선

Mixtures of Experts Unlock Parameter Scaling for Deep RL : 강화 학습에서 MoE를 통한 피라미터 확장으로 성능 향상

DIAMOND : Diffusion model이 생성한 world에서 훈련된 RL agent

 

Energy-Based Models

Energy-Based Models : Langevin dynamics를 이용한 EBM sampling

EBM Compositionality : EBM이 확률 분포를 결합함으로써 분포의 결합, 분리, 부정을 정의할 수 있다는 것을 보여줌

 

State Space Models

S4 : S4 피라미터화를 기반으로 state space를 효율적으로 계산

- Mamba

Mamba : SSM에 선택성을 부여하고 하드웨어 최적화

MoE-Mamba : MoE + Mamba

Vision Mamba : 2방향 스캔을 통해 시각 모델링이 가능한 Mamba

VMamba : 4방향 스캔을 통해 시각 모델링이 가능한 Mamba

Jamba : Transformer + Mamba + MoE

Samba : Mamba와 Sliding Window를 계층적으로 결합한 hybrid architecture

- Gated Convolution

Zoology : Gated Convolution-Attention Hybrid model을 통해 multi-query associative recall 작업에서의 성능 향상

 

Sketch

CLIPasso : 다양한 추상회 정도의 스케치 생성

Sketch Video Synthesis : 비디오에서 스케치 생성

 

Typography

Dynamic Typography : 사용자 프롬프트에 따라 텍스트에 움직임을 불어넣는 end-to-end 최적화 프레임워크

 

Etc.

Masked Siamese Network : 샴 네트워크에 MIM(masked image modeling) 적용

Measuring the Intrinsic Dimension of Objective Landscapes : 네트워크의 고유 차원 측정 

Animated Drawings : 아이들의 그림을 움직이게 하기

ImageBind : Image-paired data로 모든 양식 통합하기 

Online Softmax : 더 적은 메모리 액세스로 softmax 계산

Fast Feedforward Networks(FFF) : Feedforward를 나눈 후 이진트리를 통해 다음 hidden node를 선택

LP-FT : Liner Probing 후 Fine-Tuning 하면 더 학습 잘 됨

SearchFormer : Transformer를 통해 maze, sokoban puzzle과 같은 복잡한 의사 결정 작업 해결

Is Flash Attention Stable? : 훈련 불안정의 잠재적인 원인인 수치 편차를 정량화하는 방법 제안

The Platonic Representation Hypothesis : 대부분의 deep networks는 modality에 상관 없이 결국 단일 표현 공간으로 수렴될 것이며, 이를 platonic representation이라고 명명

DeepThinking Systems : 반복 아키텍처, 반복 알고리즘을 통해 작은 문제를 해결할 수 있는 알고리즘을 반복하여 더 크고 복잡한 문제를 해결할 수 있도록 알고리즘 외삽을 수행

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'논문 리뷰 > 논문 분류' 카테고리의 다른 글

짧은 개념 모음  (1) 2023.12.01
Language 논문 분류  (0) 2023.06.11
GAN 논문 분류  (0) 2023.01.11
Vision Transformer 논문 분류  (0) 2023.01.11
Diffusion 논문 분류  (0) 2022.09.14
년도별  (0) 2022.06.10