년도별

2017

Mixture-of-Experts : Feedforward network를 하위 집합인 expert로 나누어 소수의 적합한 expert만이 계산에 참여함

Look, Listen and Learn : 원시 비디오를 통한 visual-audio 표현 학습

2018

Measuring the Intrinsic Dimension of Objective Landscapes : 네트워크의 고유 차원 측정

ITIS : 사용자 클릭을 반복적으로 입력하여 학습하는 segmentation framework

Contextual Attention : Contextual attention으로 image inpainting 개선

Online Softmax : 더 적은 메모리 액세스로 softmax 계산

GPipe : 레이어 그룹을 파티션으로 나누어 병렬화

PipeDream : 1F1B 알고리즘을 통해 유휴시간 없는 파이프라인 병렬화

2019

MiDaS : 다양한 깊이 추정 데이터셋에 통합적으로 적용 가능한 손실함수 개발. 3D movies dataset

Deep Flow-Guided Video Inpainting : Optical flow를 통한 video inpainting 방법

BlockBERT : Attention matrix에 희소 블록 구조를 도입하여 장거리 종속성 모델링

LAPQ : 낮은 비트폭 양자화에서 2차 최적화를 통해 Layer-wise quantization을 가능하게 함

Coincidence, Categorization, and Consolidation : Clustering 기반 표현 학습으로 audio embedding network 훈련

Energy-Based Models : Langevin dynamics를 이용한 EBM sampling

Mask-Predict : Masked token을 병렬로 디코딩하여 텍스트 생성

2020

White-box cartoonization : 이미지를 세 단계 표현으로 분해하여 만화화

Rewriting a Deep Generative Model : 훈련된 모델에서 특정 하위 집합만 변형되도록 네트워크 규칙 변경

StyleSpace : S 공간의 효율성 입증. S 공간에서의 속성 탐색 방법을 제안

FGVC : Flow edge를 먼저 완성, non-local flow connection 도입

WoodFisher : Hessian matrix를 효율적인 fisher matrix로 근사하여 가지치기에 활용

PipeDream-2BW, Flush : PipeDream의 메모리 부담을 개선

AWAC : Weighted likeihood를 통해 online fine-tuning 개선

SMART : Mask-Predict의 반복 과정을 개선

ProphetNet : N-stream self-attention을 통해 미래 n-gram을 예측

2021

ReStyle : 인코더 기반 반전과 직접 최적화 반전을 결합한 반전 인코더 모델

FastGAN : 100개 미만의 샘플로 몇 시간만에 수렴하는 초경량 GAN

Alias-Free GAN(StyleGAN3) : StyleGAN2에서 신호처리의 개념을 도입해 엘리어싱을 완전히 제거

개념편, 아키텍처편

Sketch Your Own GAN : 직접 스케치를 통해 GAN 모델의 포즈 변경. 실용성 ↓

Diffusion Models Beat GANs on Image Synthesis : 분류기 가이드를 통한 다양성-품질 trade-off

Classifier-Free Diffusion Guidance : 분류기 없는 가이드로 다양성-품질 trade-off

Cascaded Diffusion Model : Cascade 구조를 통해 확산 모델에서 고해상도 샘플 생성

Projected GAN : GAN의 성능을 향상시키는 무작위 투영 다중 판별기 제안

EqGAN-SA : 히트맵과 D의 attention map을 이용해 GAN 훈련 평형 개선

VQ-Diffusion : VQ-VAE + Diffusion + Masking

Latent Diffusion Model (LDM) : Diffusion Model + Autoencoder + Cross Attention

LoRA : 사전 훈련 네트워크 가중치의 rank를 분해하여 효율적인 downstream 작업

RITM : 클릭 기반 interative segmentation, ITIS의 개선 버전

SoundStream : 오디오 코덱 신경망

FuseFormer : Video inpainting을 위한 soft split, soft composition

Memory Efficient Transformers : Self-attention의 메모리 복잡도 줄임

Accelerated Sparse Neural Training : Backward pass에서도 희소 구조를 보존하여 훈련 가속화

Contriever : Unsupervised dense retriever의 훈련 방법으로 대조 학습을 탐구

Layered Neural Atlas : 비디오 프레임을 2D atlas로 분해하고 다시 비디오에 매핑

V-MoE : MoE를 ViT에 적용

EBM Compositionality : EBM이 확률 분포를 결합함으로써 분포의 결합, 분리, 부정을 정의할 수 있다는 것을 보여줌

S4 : S4 피라미터화를 기반으로 state space를 효율적으로 계산

SUNDAE : Unrolled denoising을 통해 non-AR 텍스트 생성

TOOD : classification과 localization을 명시적으로 정렬하는 새로운 정렬 헤드 T-Head

2022

DAB-DETR : 쿼리에 대한 더 깊은 이해를 통해 동적 앵커 박스 제시

RePaint : 재확산을 이용한 이미지 인페인팅

StyleGAN-XL : StyleGAN3 + Projected GAN

DualStyleGAN : 한 쌍의 매핑 네트워크를 이용해 얼굴 스타일 전송에 특화된 GAN

TPS Motion Model : 비지도 모션 전송 프레임워크

DN-DETR : 이분 매칭의 문제점을 지적하고 훈련 가속화를 위해 denoising training을 제안

DINO : DAB-DETR, DN-DETR, Deformable DETR의 아이디어를 결합하고 개선한 모델

MatteFormer : Trimap에서 추출한 Prior token을 이용해 ViT 기반 image matting 개선

StyleGAN-Human : 인간 전신 이미지를 훈련하며 얻은 통찰을 기록. Stylish-Humans-HQ 데이터셋 제작

NAT : Attention을 마치 컨볼루션처럼 작동시키는 Neighborhood Attention 제안

TeViT : Video instance segmentation을 위한 ViT

FAN : Self attention과 모델 견고성의 관계를 분석

Masked Siamese Network : 샴 네트워크에 MIM(masked image modeling) 적용

FocalsConv : 불균일 3D 희소 데이터를 효율적으로 처리하기 위한 Focal sparse convolution 제안

Retrieval-Augmented Diffusion Models : CLIP을 이용한 검색 기반 확산 모델

CAST : 스타일 전송에 새로운 대조 손실과 GAN 체계 도입. 성능 엄청 좋음

HAT : 이미지 초해상도를 위한 ViT

ASSET : ViT 기반의 고해상도 semantic 분할 편집 아키텍처. NLP 기법들을 차용

ViT-Adapter : Vanilla ViT에 쉽게 추가할 수 있고 성능이 크게 향상되는 간단하고 효율적인 어댑터

Inception Transformer : ViT와 CNN의 장점을 모두 활용하기 위한 모델. pooling, attention, convolution을 완전히 따로 분리해서 연산하는 것이 특징

ConvMAE : ViT와 CNN의 장점을 결합한 MIM 아키텍처

UM-MAE : 계층적 ViT에 MIM 적용. 균일 마스킹 전략

GreenMIM : 계층적 ViT에 MIM 적용. 최적화 알고리즘으로 각 창을 그룹으로 묶음

Manhattan SDF : Manhattan-world 가정에 기초하여 3D 장면을 재구성. 특히 벽과 바닥이 깔끔하게 나옴

Analyzing the remaining mistakes on ImageNet : ImageNet 데이터 세트의 오류들을 자세히 분석

Cross-Domain Style Mixing : 기존의 사전 훈련 인코더 방법의 문제점을 해결하고 더 향상된 스타일화 프레임워크 제안

PITI : 사전 훈련된 확산 모델을 통한 image-to-image 변환

Imagen : 텍스트 임베딩으로 대형 언어 모델 사용. 동적 임계값, Efficient U-Net 제안

Improved VQ-Diffusion : 이산 확산 모델의 샘플링 전략 개선

EfficientFormer : ViT의 mobile 환경에서의 긴 지연 시간의 이유를 분석하고 높은 성능을 유지하며 지연 시간을 획기적으로 줄임

MobileViTv2 : MobileViT에서 새로운 separable self-attention을 추가한 개선 버전

Can CNNs Be More Robust Than Transformers? : Attention 없이 순수 CNN으로 transformer의 구조를 흉내내어 보았더니 CNN 쪽이 더 견고성이 좋았다는 내용

Mask DINO : DINO를 segmentation까지 확장해 다양한 작업을 지원하는 통합 모델

SAM Inversion : 가역성 맵을 예측하여 물체의 유형에 따라 각각 다른 계층에서 편집을 수행

ArtBench : Artwork 생성 벤치마킹을 위한 새로운 데이터세트

DCT-Net : Cross domain translation을 full-image에서 one-path로 가능하게 한 모델

SLaK : 커널 분해. 커널 크기를 51x51까지 확장

GANWarping : 수동으로 편집한 변형을 GAN에 적용하는 방법. 증강 방법이 인상깊음

RDM Stylization : RDM의 DB를 교체하여 스타일화 하는 simple trick

Paint2Pix : 사용자 입력 페인팅 이미지를 통해 간단히 이미지 편집, 합성 수행

Textual Inversion : 확산 모델에 새로운 시각적 words 임베딩

Cold-Diffusion : 노이즈 이외의 다른 이미지 저하 방법을 위한 새로운 샘플링 알고리즘

DreamBooth : Text-to-image 모델에 원하는 대상의 시각적 특징 바인딩.

Make-A-Video : 확산 기반 Text-to-Video 모델

Paint by Example : 예제 기반 이미지 편집(인페인팅) 모델

DDNM : 사전 훈련된 확산 모델을 이용한 zero-shot 이미지 복원 모델

Prompt-to-Prompt : Attention map 주입을 통한 텍스트 기반 이미지 편집

Null-text Inversion : 이미지 편집을 위한 Diffusion Inversion

DiT : 확산 모델에 트랜스포머 백본

DPM-Solver : ODE solver를 이용한 빠르고 고품질의 샘플링

DPM-Solver++ : DPM-Solver에서 속도 개선, guided sampling에서도 작동되게 개선

DAAM : 단어가 생성된 이미지에 미친 영향을 hitmap으로 표시

DiffStyler : Text guided stylization + dual architecture

InstructPix2Pix : 확산 모델을 이용해 텍스트로 이미지 편집

Tune-A-Video : 사전 훈련 T2I 모델로 비디오 생성. 프레임이 낮지만 적은 비용이 장점

ToMe : 추가 훈련 없이 토큰 병합으로 속도 높이기

EnCodec : 오디오 코덱 신경망. SoundStream 개선 버전

Progressive Distillation : 점진적 증류를 통해 샘플링 시간 줄임

Rectified Flow : 직선 경로를 통해 분포를 전송하는 ODE 모델

E2FGVI : Flow-based end-to-end video inpainting framework

FGT : 시간적, 공간적 transformer를 이용한 flow-guided video inpainting

EVA : CLIP의 시각적 표현을 10억 개의 피라미터를 가진 ViT 모델로 scale-up 하는 MIM

SmoothQuant : 채널별 스케일링을 통해 LLM 양자화

oBERT : 대규모 모델의 경우 블록으로 나누어 블록째로 가지치기

OBC : 효율적인 전역 양자화, 양자화∙가지치기 통합

GPTQ : 양자화 일괄 처리, Cholesky decomposition

GLM-130B : 대규모 이중언어 오픈소스 모델. 훈련 과정을 전부 공개하였다.

RL with KL penalties is better viewed as Bayesian inference

LVDM : LDM을 시간 차원으로 확장하여 비디오 생성

Cramming : 초저비용 환경에서 최대의 학습 효율 내기

CLIPasso : 다양한 추상회 정도의 스케치 생성

LIMoE : Multi-modal ViT에 MoE 적용

LP-FT : Liner Probing 후 Fine-Tuning 하면 더 학습 잘 됨

η-sampling : 텍스트 샘플링 시 분포의 entropy에 따라 달라지는 확률 임계값 이하의 단어를 truncation

Speculative Decoding : 여러 개의 토큰을 병렬로 계산하여 더 빠르게 샘플링

ST-MoE : MoE의 안정적인 훈련을 위한 Router z-loss 제안

STaR : 답변에 대한 이론적 근거를 생성하도록 하고 bootstrapping을 통해 지속적으로 향상

X-MoE : MoE의 표현 붕괴 문제를 완화하고 더 안정적인 라우팅을 제공

DeepThinking Systems : 반복 아키텍처, 반복 알고리즘을 통해 작은 문제를 해결할 수 있는 알고리즘을 반복하여 더 크고 복잡한 문제를 해결할 수 있도록 알고리즘 외삽을 수행

2023

Muse : Text-to-image를 위한 VQ masked transformer

ConvNeXt V2 : 순수 Conv로만 이루어낸 ConvNeXt + MAE

GLIGEN : Text2img 확산 모델에서 object 위치, 포즈 지정하기

StyleGAN-T : StyleGAN으로 text-to-image 따라잡기

CutLER : 탐지, 분할을 위한 self supervised learning. Cut and learn 방식으로 작은 물체까지 잘 잡아냄

Attend-and-Excite : Text-to-image에서 여러 개체를 생성할 때 생기는 문제와 잘못된 속성 바인딩 개선

Mixture of Diffusers : 여러 확산 과정을 혼합하여 이미지 생성

Hard Prompts Made Easy : Hard prompt 최적화

ControlNet : End-to-End 방식으로 확산 모델에 조건 입력

MultiDiffusion : 여러 확산 과정을 최적화를 통해 한 장의 이미지로 통합

Composer : 분해-재구성 단계를 통해 다양한 컨디셔닝에 적응

ToMe for SD : 토큰 병합을 확산 모델에 적용

SAM : Segmentation을 위한 최초의 foundation model

Text2Video-Zero : 추가 학습이나 최적화 과정 없이 T2I 모델로 비디오 생성

Gen - 1, 2 : Structure와 content를 조건으로 유연한 비디오 편집

UniDiffuser : 각 multi-modal 데이터를 공동 훈련하여 modality 확장성이 뛰어난 모델

InstantBooth : 예제마다 일일이 최적화하지 않고 모델 개인화

Consistency Models : OpenAI에서 공개한 자기 일관성을 통해 학습하는 모델

Animated Drawings : 아이들의 그림을 움직이게 하기

Inpaint Anything : Segment Anything Model(SAM)을 최신 모델들과 함께 다양한 작업에 적용. 마스크 없는 인페인팅

PerSAM : SAM(Segment Anything Model) 개인화&자동화

HQ-SAM : SAM에서 세부적인 마스크 품질 개선

DragGAN : 드래그를 통해 이미지 제어

ImageBind : Image-paired data로 모든 양식 통합하기

Video-LLaMA : 비디오를 이해하는 언어 모델

MusicGen : 주어진 코드북 패턴에 따라 단일 transformer로 음악 생성

LLaMA-Adapter : LLaMA를 경량 어댑터로 fine-tuning

LLaMA-Adapter V2 : LLaMA-Adapter 개선 + Multi-Modal

MatAny : 매우 간편한 interactive image matting

MAM : SAM을 활용한 image matting 모델, 다양한 matting 작업 처리 가능

Grounding DINO : DINO를 open-set detector로 개조

Tag2Text : Detector가 아닌 tagging을 이용한 vision-language pretraining framework

RAM : 이미지 태깅을 위한 foundation model

SnapFusion : 모바일 장치에서 2초 이내에 작동되는 매우 빠른 T2I 확산 모델

LongMem : 무제한 길이 토큰을 처리할 수 있는 LLM framework

I-JEPA : 데이터 증강 없이 의미론적 표현 학습하기

FastSAM : SAM의 CNN version. 매우 빠름

DragDiffusion : DragGAN의 방법으로 Diffusion Model에서 포인트 기반 대화형 편집

DIFT : 이미지 간의 대응 관계를 찾을 수 있는 확산 과정의 중간 feature

DragonDiffusion : 드래그로 조작 가능한 다양한 이미지 편집 기능

StyleDrop : Style transfer with adapter

LongLoRA : LLM의 context 크기를 확장하는 효율적인 fine-tuning 방법

InstaFlow : Reflow, 증류를 통한 초고속 1단계 생성

AnimateDiff : Text-to-image 모델에 모듈을 추가하여 비디오 생성

SDXL(Stable Diffusion XL) : Stable diffusion의 개선 버전

FreeU : 저주파수, 고주파수 feature 간의 균형 조절

StreamingLLM : Attentoin sink를 이용해 context를 확장하면서 안정성 유지

Propainter : Flow-guided video inpainting 방법론 총집합 + dual-domain propagation + mask-guided sparse transformer

AutoGen : Multi-agent 간의 대화를 중심으로 한 conversation programming으로 LLM application 구축

LLaVA-1.5 : LLaVA에 대한 간단한 수정을 통해 성능 향상

ScaleCrafter : Receptive field 확장으로 초고해상도 이미지 생성

Ferret : MLLM에서 자유 형식의 영역 입력을 처리할 수 있는 최초의 작업

Show-1 : 픽셀, 잠재 기반 Diffusion Model을 혼합하여 적은 비용으로 고품질 비디오 생성 가능

Semantic-SAM : 사용자가 원하는 level로 무엇이든 분할하고 인식할 수 있는 범용 이미지 분할 모델

COMM : LLM에 입력되는 feature 자체에 대한 연구, 계층과 모델에 대한 통합 feature 사용

EVA-02 : Architecture 개선, EVA-01의 visual feature space 계승

EVA-CLIP : EVA에서 훈련 효율성을 주로 개선하여 최대한 큰 배치에서 많이 훈련할 수 있도록 함

TEQ : SmoothQuant의 채널별 scaling vector를 학습 가능하게 함

BPT : Block-wise attention에 FFN까지 결합

Ring Attention : Block-wise transformer의 병렬화 방식을 개선하여 무한에 가까운 context로 확장

SparseGPT : Inverse hessian matrix 재사용, 유효한 가중치만 업데이트

Sparse Fine-tuning : 희소 모델을 증류 방식을 통해 더 높은 sparse level로 fine-tuning

WebGLM : 웹 검색 기반 질의응답 시스템 (BingAI 느낌)

OpenChat : C-RLFT를 통해 SFT dataset으로도 online fine-tuning을 가능하게 함

CORGI : 인간의 학습 커리큘럼을 언어 모델에 적용

VideoCrafter1 : 1024 × 576 해상도의 고품질 비디오를 생성할 수 있는 T2V, I2V 모델

Fast Feedforward Networks(FFF) : Feedforward를 나눈 후 이진트리를 통해 다음 hidden node를 선택

Stable Video Diffusion : Data curating의 중요성, 더 많은 diffusion noise

Concept Slider : disentangled LoRA

Self-Attention Guidance : 샘플의 fine-grained feature를 자체적인 지침으로 사용

Zero Terminal SNR : Zero SNR의 중요성

Adversarial Diffusion Distillation : DM distillation + GAN loss

Noise-Free Score Distillation

Animate Anyone : AnimateDiff + ReferenceNet + Pose Guide

HiDiffusion : 계산 집약적인 U-Net의 Up, Down Block 1을 수정하여 효율적인 초고해상도 생성

Sketch Video Synthesis : 비디오에서 스케치 생성

Diffusion-DPO : 확산 모델에 Direct Preference Optimization 적용

GPT4Video : 대화 흐름과 상황에 따라 자연스럽게 video caption 생성

Generative Powers of Ten : Multi-scale content 생성

X-adapter : Version이 다른 plug-in과 text-to-image model 호환되게 하기

DeepCache : 인접한 denoising stage에서 feature를 캐시하여 속도를 향상

StyleAligned : Attention sharing을 통해 스타일 일관성 유지

SyncDiffusion : Global 지각 손실을 통해 매끄럽고 일관적인 연결 가능

MagicAnimate : 모션 시퀀스에 따른 비디오 생성(실사)

MAGVIT-v2 : Video tokenizer인 MAGVIT의 개선 버전

PixArt-α : 낮은 훈련 비용으로 고해상도 이미지 생성이 가능한 transformer 기반 T2I 확산 모델

W.A.L.T : Transformer 기반의 확산 모델링을 통해 실사 비디오 생성

PhotoMaker : 합성되는 이미지의 identity를 지정하고 제어할 수 있는 T2I 모델

AnimateZero : AnimateDiff에서 정확환 외관 및 모션 제어 능력을 향상

EdgeSAM : Prompt tuning과 증류를 통해 핸드폰에서도 빠르게 실행할 수 있는 SAM의 가속 변형

FreeInit : Re-initialization을 통해 비디오 확산 모델의 시간적 일관성 개선

I2VGen-XL : Cascade 구조로 비디오 생성

FineControlNet : 인스턴스가 여러 개일 때 각각을 분리해서 attention을 수행하여 제어능력 향상

SparseCtrl : Sparse Condition Encoder를 통해 sparse signal로 제어 가능한 비디오 생성

VidToMe : 토큰을 병합하여 계산 비용을 줄임과 동시에 시간적 일관성 향상

UDiffText : Text encoder를 설계하여 텍스트 합성에 특화

SCEdit : SC-Tuner를 통해 skip connection을 편집

IP-adapter : Decoupled cross-attention을 통해 image feature prompting

InstructVideo : Human feedback을 통해 text-to-video 확산 모델을 fine-tuning

StreamDiffusion : RTX 4090 GPU에서 최대 91.07 fps로 이미지 생성 가능

Fairy : Temporal attention 없이 cross-frame attention, equivariant fine-tuning만으로 시간적 일관성 향상

PIA : 이미지에 affinity score를 더하여 각 프레임에 조건화

DreamTuner : DreamBooth + Subject Encoder + Self Subject Attention

VideoPoet : Multi-modal 입력을 처리하고 고품질 audio, video를 합성

IMP : 효율적이고 modality 확장이 가능한 LIMoE

TF-T2V : 동영상 플랫폼에 널려있는 고품질 unlabeled video를 훈련에 활용

SOLAR 10.7B : 매우 간단하고 효율적인 depth up-scaling 방법으로 모델 업스케일링

MotionCtrl : 생성 비디오의 camera motion과 object motion을 독립적으로 제어

WaveCoder : Generator-Discriminator Framework를 통해 일반화 능력을 크게 향상할 수 있는 instruction dataset 제작

SPM : 개념 침식을 일으키지 않고 특정 개념을 삭제할 수 있는 adapter

SSR-Encoder : 참조 이미지에서 피사체를 선택적으로 캡처할 수 있도록 설계된 condition encoder

TinyGPT-V : 매우 효율적인 MLLM

LARP : Open world role-playing을 위한 agent 설계

Improving Text Embeddings with Large Language Models : LLM을 fine-tuning 하여 text embedding model 얻기

Semantic-DDM : h-space 잠재 표현 수정을 통해 생성 이미지 제어

LooseControl : 정확한 depth map 대신 일반화된 depth map을 soft condition으로 사용

Directed Diffusion : Cross-attention map에 activation을 생성하여 bbox를 통해 위치 제어

TrailBlazer : Bounding box를 통해 비디오에서 피사체를 안내

DocLLM : LLM이 layout을 고려하여 시각적 문서를 추론할 수 있도록 함

BK-SDM : U-Net의 일부 블록을 제거하고 증류하여 피라미터 줄임

Mistral 7B : LLaMA2 기반 모델 (Sliding window attention, Rolling buffer cache)

Mamba : SSM에 선택성을 부여하고 하드웨어 최적화

FateZero : Inversion을 통해 얻은 attention map을 사용해 시간적 일관성 향상

Delta Denoising Score : SDS를 응용하여 최소한의 수정으로 이미지 편집

Zero Bubble Pipeline Parallelism : 역전파 분할, 자동 스케줄링, 동기화 우회를 통해 zero bubble 달성

DDPM Inversion : DDPM의 편집 친화적인 latent noise space를 추출하는 inversion 방법

LLM-grounded Diffusion : LLM이 layout을 생성하여 diffusion model을 안내

InternLM-XComposer : 자연스러운 Interleaved Text-Image Composition

Jailbroken: How Does LLM Safety Training Fail? : Jail-breaking에 대해 조사하고 2가지 실패 모드 가설을 세움

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! : 10개의 유해한 예제에 대한 fine-tuning 만으로도 LLM의 안전성을 크게 손상시킬 수 있다.

Improved Techniques for Training Consistency Models : Distillation 없이 consistency model을 직접 학습하는 consistency training의 개선된 기법 소개

Emu : 수천 개의 고품질 이미지만으로 Quality-Tuning을 수행하여 매력적인 이미지를 생성

Emu Edit : 단일 모델로 다양한 task에 대해 instruction-based image editing이 가능

DSIR : 원시 데이터셋에서 importance weight를 반영하여 적절한 데이터 부분집합 선택

SoftMoE : MoE의 문제들을 해결하면서 이점을 유지하는 완전 미분 가능한 MoE

Zoology : Gated Convolution-Attention Hybrid model을 통해 multi-query associative recall 작업에서의 성능 향상

BitNet : 가중치를 1-bit로 양자화

Dataset Diffusion : 확산 모델을 통해 semantic segmentation dataset을 생성

Prometheus : Evaluator LM을 훈련하기 위해 설계된 feedback collection dataset으로 훈련된 모델

SMEAR : 전문가의 가중 평균을 통해 구성된 단일 병합 전문가를 사용하여 보조 손실 없는 훈련을 가능하게 함

Randomized Positional Encodings : 훈련 시 훈련 데이터의 최대 길이보다 긴 위치 인코딩을 시뮬레이션하여 추론에 적용

2024

VideoDrafter : LLM, Img model, Vid model을 활용하여 일관성 있는 multi-scene video 생성

LLaMA Beyond English : 다른 언어로의 전이 학습에 대한 조사

Moonshot : IP-Adapter에 temporal attention을 더하여 비디오 생성

TinyLlama : LLaMA2 기반에 1T 개의 토큰으로 pretraining 된 1.1B 모델

Instruct-Imagen : 생성 모델을 자연어로 제어할 수 있도록 multi-modal instruction tuning

Segmind-Vega : Attention layer를 제거하고 layer level loss를 사용하여 증류

DVT : Positional Embedding에 의해 유발되는 noise artifact를 제거하는 네트워크

Mixtral 8x7B : Mistral 7B + Mixture of experts

MoE-Mamba : MoE + Mamba

LMC-SDS : Score Distillation Sampling을 분석하고 더 깨끗한 gradient를 제공할 수 있는 방법 제안

PixArt-δ : PixArt-α + Latent Consistency Model + ControlNet

Parrot : Multi-reward 간에 Pareto 최적인 샘플만 훈련에 사용

Object-Centric Diffusion : 배경 영역의 계산을 줄임으로써 빠른 비디오 편집

PALP : LoRA를 통해 Target Prompt Personalization

Autoregressive Image Model : Autoregressive objective를 통해 ViT를 확장하여 대규모 vision model 구축

InstantID : IP-Adapter, ControlNet을 통해 ID 조건화

Vision Mamba : 2방향 스캔을 통해 시각 모델링이 가능한 Mamba

UniVG : 자유도가 낮은 작업인 animation, super-resolution에서 목표 분포로의 전환을 학습할 수 있도록 함

VideoCrafter2 : 저품질 비디오 모델을 고품질 이미지를 통해 fine-tuning

VMamba : 4방향 스캔을 통해 시각 모델링이 가능한 Mamba

DiffusionGPT : LLM agent system을 통해 prompt에 적합한 확산 모델을 동적으로 선택하여 이미지 생성

Self-Rewarding Language Models : 언어 모델이 학습 중에 스스로 보상을 제공하여 자가 개선

Medusa : 메두사 같은 병렬 헤드를 통한 빠른 생성

Depth Anything : 단순한 Encoder-Decoder 구조로 모든 이미지를 처리하는 depth foundation model

EmerDiff : Stable Diffusion의 의미론적 지식을 활용하여 추가 학습 없이 segmentation

Recaptioning, Planning, and Generating : 복잡한 이미지 생성을 LLM을 통해 간단한 하위 영역 생성으로 분해

Binoculars : 한 쌍의 LLM을 대조하여 간단하게 LLM이 생성한 글을 탐지

Large-scale Reinforcement Learning for Diffusion Models : 다양한 보상 함수에 대한 대규모 공동 훈련

Lumiere : 전체 프레임을 한 번에 생성하는 Space-Time U-Net

SUPIR : 큰 모델, 대규모 데이터, MLLM의 이해력을 활용한 이미지 복원

CrossMAE : MAE에서 디코더의 self-attention을 제거, 훨씬 빠르고 성능 좋음

Diffuse to Choose : Virtual try-on을 위한 확산 기반 인페인팅 모델

SliceGPT : Weight matrix를 small matrix로 대체

MoE-LLaVA : Mixture-of-Experts + LLaVA

InternLM-XComposer2 : Visual token에만 LoRA를 적용하는 Partial LoRA

Motion-I2V : Drag Motion guide. 모션 예측과 비디오 생성을 분리하여 명시적인 모션 모델링이 가능

Weak-to-Strong JailBreaking : 작은 규모의 unsafe model을 통해 큰 모델의 출력 분포를 조정하여 Jail-Breaking을 유도

AR2Diff : Text Diffusion과 AR model 비교, 사전 훈련된 AR 모델을 확산 모델로 변환하는 AR2Diff 방법 조사

YOLO-World : 빠르고 정확하게 open-vocabulary detection이 가능한 YOLO 기반 모델

AnimateLCM : Image prior, motion prior 추출을 분리하는 학습 전략과 plug-and-play adapter를 효율적으로 적응하는 전략 제안

Boximator : Bounding box, motion path를 통해 비디오를 제어

DeepSeekMath : DeepSeekMath corpus, Group Relative Policy Optimization (GRPO)

OpenMoE : Routing mechanism을 심층적으로 분석하고 OpenMoE를 open-source로 출시

ConsiStory : 사전 훈련된 모델의 내부 활성화를 공유하여 일관된 subject 생성을 가능하게 하는 훈련 없는 접근 방식

EVA-CLIP-18B : EVA-CLIP을 18B까지 확장

Self-Discover : 복잡한 추론 문제를 해결하기 위해 LLM이 작업 내재적 추론 구조를 스스로 발견

BiLLM : 고정밀 추론이 가능한 1-bit post-training quantization (PTQ) 방식

More Agents Is All You Need : 간단한 sampling 및 voting을 통해 LLM의 성능 향상

LargeWorldModel : Ring attention을 활용하여 1M 길이의 context에 대한 multi-modal modeling

Mixtures of Experts Unlock Parameter Scaling for Deep RL : 강화 학습에서 MoE를 통한 피라미터 확장으로 성능 향상

BASE TTS : 100K 시간의 음성 데이터에 대해 훈련된 대규모 autoregressive TTS model

CoT-decoding : 단순히 decoding process를 변경함으로써 prompting 없이 CoT reasoning path를 도출

GRIT : Instruction tuning을 통해 LLM이 embedding과 generative task를 구별하여 처리할 수 있도록 훈련

SPIN : SFT data를 활용한 self-play mechanism을 통해 성능을 점진적으로 향상

SPIN-Diffusion : Self-Play Fine-Tuning (SPIN)을 확산 모델에 적용

ReBased : In-Context Learning 능력을 증폭시키기 위한 Linear Transformer Kernel 설계

Speculative Streaming : Speculation & Verification 통합, Multi-stream attention을 통해 효율적인 speculative decoding

LongRoPE : 검색을 통해 최적의 RoPE 재조정 인자를 찾고 LLM context window를 2048k까지 확장

FiT : RoPE의 context 확장을 이미지에 적용해 무제한의 해상도와 종횡비의 이미지를 생성

Neural Network Diffusion : 확산 모델을 통해 neural network parameter를 생성

SDXL-Lightning : Progressive, adversarial distillation을 결합하여 1-step으로 1024x1024 이미지 생성

YOLOv9 : Information bottleneck 완화

SearchFormer : Transformer를 통해 maze, sokoban puzzle과 같은 복잡한 의사 결정 작업 해결

MobileLLM : 가중치 공유 등 여러 기술들을 활용하여 매우 효율적인 on-device LLM

Multi-LoRA Composition : LoRA 병합 방법인 LoRA-S, C와 Testbed인 ComposLoRA 제안

BitNet b1.58 : Ternary quantization {-1,0,1}을 통해 고정밀도 LLM과 같은 성능

EMO : 강한 조건을 사용하지 않고 원활한 프레임 전환, 일관된 ID가 보장된 비디오 생성

VisionLLaMA : 피라미드 형태의 LLaMA-like vision transformer

NaturalSpeech 3 : 음성의 다양한 속성을 각 하위 공간으로 인수분해하여 개별적으로 생성

GaLore : Gradient를 low-rank로 투영하여 메모리 집약적인 계산을 수행

ELLA : Timestep-Aware Semantic Connector를 통해 LLM과 확산 모델을 연결하여 텍스트 정렬을 향상

PixArt-Σ : 사전 훈련된 Diffusion Transformer를 효율적으로 fine-tuning 하여 4K 해상도의 이미지를 생성

Stable Diffusion 3 : Transformer backbone, Rectified flow

Fuyou : 단일 GPU 상용 서버에서 대규모 모델을 fine-tuning 할 수 있도록 ZeRO-Infinity를 개선

Branch-Train-MiX : LLM을 각 도메인에 대해 개별 훈련한 후 단일 MoE 모델로 통합

Chronos : LLM architecture를 이용한 시계열 모델링 프레임워크

MoAI : Detection, OCR 등의 외부 CV 모델의 출력을 언어화하여 Vision-Language task에 활용

SD3-Turbo : Adversarial Diffusion Distillation과 달리 잠재 확산 모델의 generative feature를 활용하여 ADD의 한계를 극복

RAFT : Test domain을 알고 있다면 모델이 retriever가 가져온 문서를 스스로 필터링하도록 훈련할 수 있다

LoRA+ : LoRA의 A, B 행렬에 각각 다른 학습률을 적용하여 더 효율적으로 훈련

DoRA : 가중치를 크기와 방향이라는 2가지 구성요소로 분해하여 효율적이고 정확하게 fine-tuning

Quiet-STaR : LLM이 prompt를 읽거나 답변을 생성할 때 내부적으로 근거를 생각하며 추론하도록 함

Bounded Attention : Layout에 맞는 이미지를 생성할 수 있는 Bounded Attention 제안

FlexEdit : 각 step에서 latent를 반복적으로 조정하여 다양한 편집 작업 가능

B-LoRA : 두 개의 특정 블록의 LoRA 가중치를 학습하여 암시적으로 content와 style을 분리

ViTAR : Grid Attention, Fuzzy PE를 통해 낮은 비용으로 다양한 해상도의 이미지 처리

Mini-Gemini : 고해상도 이미지에 대한 추가 vision encoder를 통해 이미지 이해를 향상

sDPO : Dataset을 분할하여 단계적으로 DPO 수행

Jamba : Transformer + Mamba + MoE

Gecko : Query-passage pair를 순진하게 사용하지 않고 재지정하여 text embedding dataset의 품질 향상

SPRIGHT Dataset : Vision dataset의 이미지를 recaption 하여 공간 중심적 데이터셋 제작

Eurus : Multi-turn interaction 궤적을 수집하여 SFT, Preference Learning에 사용

InstantStyle : 참조 이미지에서 content와 style을 분리하고 style attention block에만 주입

Octopus v2 : Function calling on-device model에서 calling과 parameter 생성을 결합하여 추론 시간을 크게 줄임

Mixture-of-Depths : 특정 계층에서 계산에 참여하는 토큰 수를 제한하여 FLOPs를 동적으로 할당

Think-and-Execute : Task-level logic에 대한 의사 코드를 생성하고 코드 실행을 시뮬레이션하여 추론

VAR : AR modeling의 next-token 예측을 next-scale 예측으로 재정의

CoMat : 정확한 text-image 정렬을 가능하게 하는 end-to-end fine-tuning 전략

ReFT, LoReFT : 가중치 대신 표현을 수정하는 Representation Fine-Tuning의 개념과 low-rank를 활용하여 효율적으로 표현에 개입할 수 있는 LoReFT 제안

MagicTime : Time-lapse video를 통해 실제 물리 지식을 학습하여 metamorphic video 생성이 가능

Ferret-UI : 긴 종횡비를 가진 UI 화면을 이해하고 상호작용할 수 있다

LLM2Vec : LLM을 text encoder로 변환하는 효율적이고 간단한 비지도 접근 방식

Infini-attention : 압축 메모리와 linear attention을 활용하여 제한된 메모리에서도 무한히 긴 context를 처리

Rho-1 : Hard token을 무시하고 useful token만을 선택적으로 훈련하는 Selective Language Modeling 사용

ControlNet++ : Cycle consistency를 명시적으로 최적화하여 이미지 제어를 향상

JetMoE-8B : SMoE를 채택하여 10만 달러 미만의 비용으로 효율적이고 뛰어난 성능

Ferret-v2 : Ferret의 업그레이드 버전

TR-DPO : 학습 중에 참조 정책을 업데이트

Megalodon : 기존의 Mega를 개선하여 무제한 context 길이로 효율적인 시퀀스 모델링 가능

TransformerFAM : Global information을 제공하는 feedback attention memory를 통해 무한 시퀀스를 처리

Dynamic Typography : 사용자 프롬프트에 따라 텍스트에 움직임을 불어넣는 end-to-end 최적화 프레임워크

AlphaLLM : Monte Carlo Tree Search를 통합하여 LLM self-improvement

TextSquare : 대규모 고품질 VQA 데이터셋을 통해 MLLM의 성능, 특히 텍스트 인식을 크게 향상

Groma : Region encoding을 기반으로 region-level task에 능숙한 MLLM

AutoCrawler : HTML의 계층적 구조와 LLM을 활용하여 확장성이 뛰어난 crawler

Phi-3 : 오직 훈련 데이터만 변경함으로써 작은 3.8B 모델로 타 대형 모델에 필적하는 성능을 달성했다

Instruction Hierarchy : LLM에 명령어 계층을 도입하여 악의적 prompt를 선택적으로 무시

OpenELM : Layer-wise scaling을 적용한 경량 언어 모델인 OpenELM의 모든 정보, 프레임워크를 투명하게 공개

Multi-Head MoE : Input token을 sub-token으로 분해한 뒤 여러 expert에 할당하여 expert 활성률을 높이고 성능 향상

CatLIP : Image-text pretraining을 분류 작업으로 재구성하여 성능을 유지하면서도 빠르게 훈련

Layer Skip : 레이어를 조기 종료하고 병렬로 검증하여 보조 모델 없이 빠르게 디코딩

InternVL-1.5 : 동적 고해상도 처리, 고품질 이중언어 데이터셋으로 훈련

FILM : Long-context의 중간에 필요한 정보를 배치하고 훈련하여 long-context에서의 성능 향상

PLLaVA : Image pretrained MLLM을 비디오에 간단하고 효과적으로 적용하기 위한 방법 조사

PoLL : Panel of LLM evaluators를 구성하여 LLM의 품질을 평가

Octopus v3 : Octopus v2 + vision

Octopus v4 : Function token을 통해 다른 모델을 호출하여 추론

InstantFamily : Multi-modal embedding stack, masked cross-attention을 통해 multi-ID 생성 문제 해결

Multi-token prediction : Multi-token prediction training을 하면 single-head에서도 성능이 향상된다?

Iterative RPO : CoT를 DPO에 사용하여 모델을 반복적으로 개선

StoryDiffusion : Consistent self-attention을 통해 일관된 이미지, motion predictor를 통해 부드러운 비디오 생성

Prometheus 2 : 직접 평가 및 쌍별 순위 지정을 모두 수행할 수 있고 이전 버전보다 향상된 evaluator LM

Lory : Autoregression을 위해 설계된 완전히 미분 가능한 MoE 아키텍처

Idefics2 : VLM의 구성에 대한 광범위한 실험을 수행하고 결과를 기반으로 foundational VLM 개발

Is Flash Attention Stable? : 훈련 불안정의 잠재적인 원인인 수치 편차를 정량화하는 방법 제안

AlphaMath Almost Zero : Monte Carlo Tree Search를 활용하여 인간 주석 데이터 없이 LLM의 수학 추론 프로세스 개선

YOCO : Decoder를 KV 캐시를 생성하는 self-decoder, 생성된 캐시를 재사용하는 cross-decoder로 분리하여 효율성 향상

Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? : 새로운 사실적 지식을 학습하는 것이 LLM에 미치는 영향을 조사

DeepSeek-V2 : MoE를 통한 경제적인 훈련, KV 캐시 압축을 통한 효율적인 추론이 특징인 236B MoE 모델

xLSTM : 최신 LLM 기술을 활용하여 LSTM을 수십억 피라미터로 확장

Diffusion2GAN : 잠재 공간에서 작동하는 새로운 증류 손실을 통해 확산 모델을 GAN으로 추출

Fishing for Magikarp : Tokenizer vocabulary 내에서 훈련되지 않은 토큰을 감지하는 방법 개발

Grounding DINO 1.5 : Grounding DINO에서 탐지 성능, 추론 속도 개선

The Platonic Representation Hypothesis : 대부분의 deep networks는 modality에 상관 없이 결국 단일 표현 공간으로 수렴될 것이며, 이를 platonic representation이라고 명명

Chameleon : 사전 훈련 모델을 활용하지 않고 end-to-end 방식으로 처음부터 훈련된 multi-modal model

FIFO-Diffusion : 사전 훈련된 확산 모델을 기반으로 추가 훈련 없이 무한히 긴 비디오 생성

LoRA Learns Less and Forgets Less : Code&math에서 LoRA와 full-finetuning의 차이를 비교, 분석

Cross-Layer Attention : 레이어 간 KV cache를 공유

MoRA : Non-parameter 연산자를 통해 LoRA와 동일한 피라미터 수를 유지하면서도 high-rank update 달성

Your Transformer is Secretly Linear : Transformer decoder layer 간의 높은 선형성을 식별하고 이를 활용할 방법 제안

RLHF Workflow : Online Iterative RLHF에 대해 재현하기 쉽고 자세한 레시피를 제공하는 것이 목표

SimPO : DPO보다 간단하면서도 더 효과적임

DIAMOND : Diffusion model이 생성한 world에서 훈련된 RL agent

ConvLLaVA : MLLM의 visual encoder를 ConvNeXt로 대체하여 계산을 줄이고 성능 향상

Meteor : 근거 순회라는 개념을 통해 LLM에 암시적으로 근거를 제공하여 이해 능력 향상

NV-Embed : Latent attention layer, contrastive instruction-tuning을 통해 최첨단 성능의 텍스트 임베딩 모델 개발

Abacus Embeddings : 각 숫자의 자릿수를 인코딩하는 임베딩을 추가하여 산술 작업의 능력을 획기적으로 향상

GNN-RAG : GNN의 그래프 검색 능력과 LLM의 언어 이해 능력을 결합하여 Knowledge Graph QA task에 이용

ShareGPT4Video : 신중하게 설계된 filtering, captioning 전략을 통해 생성된 고품질 데이터셋으로 비디오 이해 능력 향상

Tree Diffusion : Syntax tree에 순차적으로 추가된 noise를 반전시켜 역 그래픽 작업을 수행

MCTSr : LLM과 MCTS를 혁신적으로 통합하여 수학적 추론 능력 향상

MatMul-Free LM : LLM에서 값비싼 MatMul 작업을 완전히 제거

Samba : Mamba와 Sliding Window를 계층적으로 결합한 hybrid architecture

Goldfish Loss : 훈련 목표의 간단한 수정을 통해 기억 능력을 감소시켜 정보 누출 위험을 피함

Depth Anything V2 : Depth Anything의 업그레이드 버전

Daredevil-8B : 유해한 명령을 거부하는 단일 방향을 찾아 제거

OMG-LLaVA : 범용 분할 모델을 visual encoder로 사용하여 pixel-level 능력을 향상한 MLLM

Step-DPO : 최적화 단위를 개별 답변에서 개별 추론 단계로 분해하여 긴 수학적 추론 능력 향상

LivePortrait : 실용적인 사용을 위해 더 나은 일반화, 제어 가능성 및 효율성에 초점을 맞춘 portrait animation framework

저작자표시

'논문 리뷰 > 논문 분류' 카테고리의 다른 글

짧은 개념 모음 (1)	2023.12.01
Language 논문 분류 (0)	2023.06.11
GAN 논문 분류 (0)	2023.01.11
Vision Transformer 논문 분류 (0)	2023.01.11
Diffusion 논문 분류 (0)	2022.09.14
기타 논문 분류 (1)	2022.06.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Ostin X

년도별

2017

2018

2019

2020

2021

2022

2023

2024

'논문 리뷰 > 논문 분류' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

년도별

2017

2018

2019

2020

2021

2022

2023

2024

'논문 리뷰 > 논문 분류' 카테고리의 다른 글

'논문 리뷰/논문 분류' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역