2017
Mixture-of-Experts : Feedforward network를 하위 집합인 expert로 나누어 소수의 적합한 expert만이 계산에 참여함
Look, Listen and Learn : 원시 비디오를 통한 visual-audio 표현 학습
2018
Measuring the Intrinsic Dimension of Objective Landscapes : 네트워크의 고유 차원 측정
ITIS : 사용자 클릭을 반복적으로 입력하여 학습하는 segmentation framework
Contextual Attention : Contextual attention으로 image inpainting 개선
Online Softmax : 더 적은 메모리 액세스로 softmax 계산
GPipe : 레이어 그룹을 파티션으로 나누어 병렬화
PipeDream : 1F1B 알고리즘을 통해 유휴시간 없는 파이프라인 병렬화
2019
MiDaS : 다양한 깊이 추정 데이터셋에 통합적으로 적용 가능한 손실함수 개발. 3D movies dataset
Deep Flow-Guided Video Inpainting : Optical flow를 통한 video inpainting 방법
BlockBERT : Attention matrix에 희소 블록 구조를 도입하여 장거리 종속성 모델링
LAPQ : 낮은 비트폭 양자화에서 2차 최적화를 통해 Layer-wise quantization을 가능하게 함
Coincidence, Categorization, and Consolidation : Clustering 기반 표현 학습으로 audio embedding network 훈련
Energy-Based Models : Langevin dynamics를 이용한 EBM sampling
Mask-Predict : Masked token을 병렬로 디코딩하여 텍스트 생성
2020
White-box cartoonization : 이미지를 세 단계 표현으로 분해하여 만화화
Rewriting a Deep Generative Model : 훈련된 모델에서 특정 하위 집합만 변형되도록 네트워크 규칙 변경
StyleSpace : S 공간의 효율성 입증. S 공간에서의 속성 탐색 방법을 제안
FGVC : Flow edge를 먼저 완성, non-local flow connection 도입
WoodFisher : Hessian matrix를 효율적인 fisher matrix로 근사하여 가지치기에 활용
PipeDream-2BW, Flush : PipeDream의 메모리 부담을 개선
AWAC : Weighted likeihood를 통해 online fine-tuning 개선
SMART : Mask-Predict의 반복 과정을 개선
ProphetNet : N-stream self-attention을 통해 미래 n-gram을 예측
2021
ReStyle : 인코더 기반 반전과 직접 최적화 반전을 결합한 반전 인코더 모델
FastGAN : 100개 미만의 샘플로 몇 시간만에 수렴하는 초경량 GAN
Alias-Free GAN(StyleGAN3) : StyleGAN2에서 신호처리의 개념을 도입해 엘리어싱을 완전히 제거
Sketch Your Own GAN : 직접 스케치를 통해 GAN 모델의 포즈 변경. 실용성 ↓
Diffusion Models Beat GANs on Image Synthesis : 분류기 가이드를 통한 다양성-품질 trade-off
Classifier-Free Diffusion Guidance : 분류기 없는 가이드로 다양성-품질 trade-off
Cascaded Diffusion Model : Cascade 구조를 통해 확산 모델에서 고해상도 샘플 생성
Projected GAN : GAN의 성능을 향상시키는 무작위 투영 다중 판별기 제안
EqGAN-SA : 히트맵과 D의 attention map을 이용해 GAN 훈련 평형 개선
VQ-Diffusion : VQ-VAE + Diffusion + Masking
Latent Diffusion Model (LDM) : Diffusion Model + Autoencoder + Cross Attention
LoRA : 사전 훈련 네트워크 가중치의 rank를 분해하여 효율적인 downstream 작업
RITM : 클릭 기반 interative segmentation, ITIS의 개선 버전
SoundStream : 오디오 코덱 신경망
FuseFormer : Video inpainting을 위한 soft split, soft composition
Memory Efficient Transformers : Self-attention의 메모리 복잡도 줄임
Accelerated Sparse Neural Training : Backward pass에서도 희소 구조를 보존하여 훈련 가속화
Contriever : Unsupervised dense retriever의 훈련 방법으로 대조 학습을 탐구
Layered Neural Atlas : 비디오 프레임을 2D atlas로 분해하고 다시 비디오에 매핑
V-MoE : MoE를 ViT에 적용
EBM Compositionality : EBM이 확률 분포를 결합함으로써 분포의 결합, 분리, 부정을 정의할 수 있다는 것을 보여줌
S4 : S4 피라미터화를 기반으로 state space를 효율적으로 계산
SUNDAE : Unrolled denoising을 통해 non-AR 텍스트 생성
TOOD : classification과 localization을 명시적으로 정렬하는 새로운 정렬 헤드 T-Head
2022
DAB-DETR : 쿼리에 대한 더 깊은 이해를 통해 동적 앵커 박스 제시
RePaint : 재확산을 이용한 이미지 인페인팅
StyleGAN-XL : StyleGAN3 + Projected GAN
DualStyleGAN : 한 쌍의 매핑 네트워크를 이용해 얼굴 스타일 전송에 특화된 GAN
TPS Motion Model : 비지도 모션 전송 프레임워크
DN-DETR : 이분 매칭의 문제점을 지적하고 훈련 가속화를 위해 denoising training을 제안
DINO : DAB-DETR, DN-DETR, Deformable DETR의 아이디어를 결합하고 개선한 모델
MatteFormer : Trimap에서 추출한 Prior token을 이용해 ViT 기반 image matting 개선
StyleGAN-Human : 인간 전신 이미지를 훈련하며 얻은 통찰을 기록. Stylish-Humans-HQ 데이터셋 제작
NAT : Attention을 마치 컨볼루션처럼 작동시키는 Neighborhood Attention 제안
TeViT : Video instance segmentation을 위한 ViT
FAN : Self attention과 모델 견고성의 관계를 분석
Masked Siamese Network : 샴 네트워크에 MIM(masked image modeling) 적용
FocalsConv : 불균일 3D 희소 데이터를 효율적으로 처리하기 위한 Focal sparse convolution 제안
Retrieval-Augmented Diffusion Models : CLIP을 이용한 검색 기반 확산 모델
CAST : 스타일 전송에 새로운 대조 손실과 GAN 체계 도입. 성능 엄청 좋음
HAT : 이미지 초해상도를 위한 ViT
ASSET : ViT 기반의 고해상도 semantic 분할 편집 아키텍처. NLP 기법들을 차용
ViT-Adapter : Vanilla ViT에 쉽게 추가할 수 있고 성능이 크게 향상되는 간단하고 효율적인 어댑터
Inception Transformer : ViT와 CNN의 장점을 모두 활용하기 위한 모델. pooling, attention, convolution을 완전히 따로 분리해서 연산하는 것이 특징
ConvMAE : ViT와 CNN의 장점을 결합한 MIM 아키텍처
UM-MAE : 계층적 ViT에 MIM 적용. 균일 마스킹 전략
GreenMIM : 계층적 ViT에 MIM 적용. 최적화 알고리즘으로 각 창을 그룹으로 묶음
Manhattan SDF : Manhattan-world 가정에 기초하여 3D 장면을 재구성. 특히 벽과 바닥이 깔끔하게 나옴
Analyzing the remaining mistakes on ImageNet : ImageNet 데이터 세트의 오류들을 자세히 분석
Cross-Domain Style Mixing : 기존의 사전 훈련 인코더 방법의 문제점을 해결하고 더 향상된 스타일화 프레임워크 제안
PITI : 사전 훈련된 확산 모델을 통한 image-to-image 변환
Imagen : 텍스트 임베딩으로 대형 언어 모델 사용. 동적 임계값, Efficient U-Net 제안
Improved VQ-Diffusion : 이산 확산 모델의 샘플링 전략 개선
EfficientFormer : ViT의 mobile 환경에서의 긴 지연 시간의 이유를 분석하고 높은 성능을 유지하며 지연 시간을 획기적으로 줄임
MobileViTv2 : MobileViT에서 새로운 separable self-attention을 추가한 개선 버전
Can CNNs Be More Robust Than Transformers? : Attention 없이 순수 CNN으로 transformer의 구조를 흉내내어 보았더니 CNN 쪽이 더 견고성이 좋았다는 내용
Mask DINO : DINO를 segmentation까지 확장해 다양한 작업을 지원하는 통합 모델
SAM Inversion : 가역성 맵을 예측하여 물체의 유형에 따라 각각 다른 계층에서 편집을 수행
ArtBench : Artwork 생성 벤치마킹을 위한 새로운 데이터세트
DCT-Net : Cross domain translation을 full-image에서 one-path로 가능하게 한 모델
SLaK : 커널 분해. 커널 크기를 51x51까지 확장
GANWarping : 수동으로 편집한 변형을 GAN에 적용하는 방법. 증강 방법이 인상깊음
RDM Stylization : RDM의 DB를 교체하여 스타일화 하는 simple trick
Paint2Pix : 사용자 입력 페인팅 이미지를 통해 간단히 이미지 편집, 합성 수행
Textual Inversion : 확산 모델에 새로운 시각적 words 임베딩
Cold-Diffusion : 노이즈 이외의 다른 이미지 저하 방법을 위한 새로운 샘플링 알고리즘
DreamBooth : Text-to-image 모델에 원하는 대상의 시각적 특징 바인딩.
Make-A-Video : 확산 기반 Text-to-Video 모델
Paint by Example : 예제 기반 이미지 편집(인페인팅) 모델
DDNM : 사전 훈련된 확산 모델을 이용한 zero-shot 이미지 복원 모델
Prompt-to-Prompt : Attention map 주입을 통한 텍스트 기반 이미지 편집
Null-text Inversion : 이미지 편집을 위한 Diffusion Inversion
DiT : 확산 모델에 트랜스포머 백본
DPM-Solver : ODE solver를 이용한 빠르고 고품질의 샘플링
DPM-Solver++ : DPM-Solver에서 속도 개선, guided sampling에서도 작동되게 개선
DAAM : 단어가 생성된 이미지에 미친 영향을 hitmap으로 표시
DiffStyler : Text guided stylization + dual architecture
InstructPix2Pix : 확산 모델을 이용해 텍스트로 이미지 편집
Tune-A-Video : 사전 훈련 T2I 모델로 비디오 생성. 프레임이 낮지만 적은 비용이 장점
ToMe : 추가 훈련 없이 토큰 병합으로 속도 높이기
EnCodec : 오디오 코덱 신경망. SoundStream 개선 버전
Progressive Distillation : 점진적 증류를 통해 샘플링 시간 줄임
Rectified Flow : 직선 경로를 통해 분포를 전송하는 ODE 모델
E2FGVI : Flow-based end-to-end video inpainting framework
FGT : 시간적, 공간적 transformer를 이용한 flow-guided video inpainting
EVA : CLIP의 시각적 표현을 10억 개의 피라미터를 가진 ViT 모델로 scale-up 하는 MIM
SmoothQuant : 채널별 스케일링을 통해 LLM 양자화
oBERT : 대규모 모델의 경우 블록으로 나누어 블록째로 가지치기
OBC : 효율적인 전역 양자화, 양자화∙가지치기 통합
GPTQ : 양자화 일괄 처리, Cholesky decomposition
GLM-130B : 대규모 이중언어 오픈소스 모델. 훈련 과정을 전부 공개하였다.
RL with KL penalties is better viewed as Bayesian inference
LVDM : LDM을 시간 차원으로 확장하여 비디오 생성
Cramming : 초저비용 환경에서 최대의 학습 효율 내기
CLIPasso : 다양한 추상회 정도의 스케치 생성
LIMoE : Multi-modal ViT에 MoE 적용
LP-FT : Liner Probing 후 Fine-Tuning 하면 더 학습 잘 됨
η-sampling : 텍스트 샘플링 시 분포의 entropy에 따라 달라지는 확률 임계값 이하의 단어를 truncation
Speculative Decoding : 여러 개의 토큰을 병렬로 계산하여 더 빠르게 샘플링
ST-MoE : MoE의 안정적인 훈련을 위한 Router z-loss 제안
STaR : 답변에 대한 이론적 근거를 생성하도록 하고 bootstrapping을 통해 지속적으로 향상
X-MoE : MoE의 표현 붕괴 문제를 완화하고 더 안정적인 라우팅을 제공
DeepThinking Systems : 반복 아키텍처, 반복 알고리즘을 통해 작은 문제를 해결할 수 있는 알고리즘을 반복하여 더 크고 복잡한 문제를 해결할 수 있도록 알고리즘 외삽을 수행
2023
Muse : Text-to-image를 위한 VQ masked transformer
ConvNeXt V2 : 순수 Conv로만 이루어낸 ConvNeXt + MAE
GLIGEN : Text2img 확산 모델에서 object 위치, 포즈 지정하기
StyleGAN-T : StyleGAN으로 text-to-image 따라잡기
CutLER : 탐지, 분할을 위한 self supervised learning. Cut and learn 방식으로 작은 물체까지 잘 잡아냄
Attend-and-Excite : Text-to-image에서 여러 개체를 생성할 때 생기는 문제와 잘못된 속성 바인딩 개선
Mixture of Diffusers : 여러 확산 과정을 혼합하여 이미지 생성
Hard Prompts Made Easy : Hard prompt 최적화
ControlNet : End-to-End 방식으로 확산 모델에 조건 입력
MultiDiffusion : 여러 확산 과정을 최적화를 통해 한 장의 이미지로 통합
Composer : 분해-재구성 단계를 통해 다양한 컨디셔닝에 적응
ToMe for SD : 토큰 병합을 확산 모델에 적용
SAM : Segmentation을 위한 최초의 foundation model
Text2Video-Zero : 추가 학습이나 최적화 과정 없이 T2I 모델로 비디오 생성
Gen - 1, 2 : Structure와 content를 조건으로 유연한 비디오 편집
UniDiffuser : 각 multi-modal 데이터를 공동 훈련하여 modality 확장성이 뛰어난 모델
InstantBooth : 예제마다 일일이 최적화하지 않고 모델 개인화
Consistency Models : OpenAI에서 공개한 자기 일관성을 통해 학습하는 모델
Animated Drawings : 아이들의 그림을 움직이게 하기
Inpaint Anything : Segment Anything Model(SAM)을 최신 모델들과 함께 다양한 작업에 적용. 마스크 없는 인페인팅
PerSAM : SAM(Segment Anything Model) 개인화&자동화
HQ-SAM : SAM에서 세부적인 마스크 품질 개선
DragGAN : 드래그를 통해 이미지 제어
ImageBind : Image-paired data로 모든 양식 통합하기
Video-LLaMA : 비디오를 이해하는 언어 모델
MusicGen : 주어진 코드북 패턴에 따라 단일 transformer로 음악 생성
LLaMA-Adapter : LLaMA를 경량 어댑터로 fine-tuning
LLaMA-Adapter V2 : LLaMA-Adapter 개선 + Multi-Modal
MatAny : 매우 간편한 interactive image matting
MAM : SAM을 활용한 image matting 모델, 다양한 matting 작업 처리 가능
Grounding DINO : DINO를 open-set detector로 개조
Tag2Text : Detector가 아닌 tagging을 이용한 vision-language pretraining framework
RAM : 이미지 태깅을 위한 foundation model
SnapFusion : 모바일 장치에서 2초 이내에 작동되는 매우 빠른 T2I 확산 모델
LongMem : 무제한 길이 토큰을 처리할 수 있는 LLM framework
I-JEPA : 데이터 증강 없이 의미론적 표현 학습하기
FastSAM : SAM의 CNN version. 매우 빠름
DragDiffusion : DragGAN의 방법으로 Diffusion Model에서 포인트 기반 대화형 편집
DIFT : 이미지 간의 대응 관계를 찾을 수 있는 확산 과정의 중간 feature
DragonDiffusion : 드래그로 조작 가능한 다양한 이미지 편집 기능
StyleDrop : Style transfer with adapter
LongLoRA : LLM의 context 크기를 확장하는 효율적인 fine-tuning 방법
InstaFlow : Reflow, 증류를 통한 초고속 1단계 생성
AnimateDiff : Text-to-image 모델에 모듈을 추가하여 비디오 생성
SDXL(Stable Diffusion XL) : Stable diffusion의 개선 버전
FreeU : 저주파수, 고주파수 feature 간의 균형 조절
StreamingLLM : Attentoin sink를 이용해 context를 확장하면서 안정성 유지
Propainter : Flow-guided video inpainting 방법론 총집합 + dual-domain propagation + mask-guided sparse transformer
AutoGen : Multi-agent 간의 대화를 중심으로 한 conversation programming으로 LLM application 구축
LLaVA-1.5 : LLaVA에 대한 간단한 수정을 통해 성능 향상
ScaleCrafter : Receptive field 확장으로 초고해상도 이미지 생성
Ferret : MLLM에서 자유 형식의 영역 입력을 처리할 수 있는 최초의 작업
Show-1 : 픽셀, 잠재 기반 Diffusion Model을 혼합하여 적은 비용으로 고품질 비디오 생성 가능
Semantic-SAM : 사용자가 원하는 level로 무엇이든 분할하고 인식할 수 있는 범용 이미지 분할 모델
COMM : LLM에 입력되는 feature 자체에 대한 연구, 계층과 모델에 대한 통합 feature 사용
EVA-02 : Architecture 개선, EVA-01의 visual feature space 계승
EVA-CLIP : EVA에서 훈련 효율성을 주로 개선하여 최대한 큰 배치에서 많이 훈련할 수 있도록 함
TEQ : SmoothQuant의 채널별 scaling vector를 학습 가능하게 함
BPT : Block-wise attention에 FFN까지 결합
Ring Attention : Block-wise transformer의 병렬화 방식을 개선하여 무한에 가까운 context로 확장
SparseGPT : Inverse hessian matrix 재사용, 유효한 가중치만 업데이트
Sparse Fine-tuning : 희소 모델을 증류 방식을 통해 더 높은 sparse level로 fine-tuning
WebGLM : 웹 검색 기반 질의응답 시스템 (BingAI 느낌)
OpenChat : C-RLFT를 통해 SFT dataset으로도 online fine-tuning을 가능하게 함
CORGI : 인간의 학습 커리큘럼을 언어 모델에 적용
VideoCrafter1 : 1024 × 576 해상도의 고품질 비디오를 생성할 수 있는 T2V, I2V 모델
Fast Feedforward Networks(FFF) : Feedforward를 나눈 후 이진트리를 통해 다음 hidden node를 선택
Stable Video Diffusion : Data curating의 중요성, 더 많은 diffusion noise
Concept Slider : disentangled LoRA
Self-Attention Guidance : 샘플의 fine-grained feature를 자체적인 지침으로 사용
Zero Terminal SNR : Zero SNR의 중요성
Adversarial Diffusion Distillation : DM distillation + GAN loss
Animate Anyone : AnimateDiff + ReferenceNet + Pose Guide
HiDiffusion : 계산 집약적인 U-Net의 Up, Down Block 1을 수정하여 효율적인 초고해상도 생성
Sketch Video Synthesis : 비디오에서 스케치 생성
Diffusion-DPO : 확산 모델에 Direct Preference Optimization 적용
GPT4Video : 대화 흐름과 상황에 따라 자연스럽게 video caption 생성
Generative Powers of Ten : Multi-scale content 생성
X-adapter : Version이 다른 plug-in과 text-to-image model 호환되게 하기
DeepCache : 인접한 denoising stage에서 feature를 캐시하여 속도를 향상
StyleAligned : Attention sharing을 통해 스타일 일관성 유지
SyncDiffusion : Global 지각 손실을 통해 매끄럽고 일관적인 연결 가능
MagicAnimate : 모션 시퀀스에 따른 비디오 생성(실사)
MAGVIT-v2 : Video tokenizer인 MAGVIT의 개선 버전
PixArt-α : 낮은 훈련 비용으로 고해상도 이미지 생성이 가능한 transformer 기반 T2I 확산 모델
W.A.L.T : Transformer 기반의 확산 모델링을 통해 실사 비디오 생성
PhotoMaker : 합성되는 이미지의 identity를 지정하고 제어할 수 있는 T2I 모델
AnimateZero : AnimateDiff에서 정확환 외관 및 모션 제어 능력을 향상
EdgeSAM : Prompt tuning과 증류를 통해 핸드폰에서도 빠르게 실행할 수 있는 SAM의 가속 변형
FreeInit : Re-initialization을 통해 비디오 확산 모델의 시간적 일관성 개선
I2VGen-XL : Cascade 구조로 비디오 생성
FineControlNet : 인스턴스가 여러 개일 때 각각을 분리해서 attention을 수행하여 제어능력 향상
SparseCtrl : Sparse Condition Encoder를 통해 sparse signal로 제어 가능한 비디오 생성
VidToMe : 토큰을 병합하여 계산 비용을 줄임과 동시에 시간적 일관성 향상
UDiffText : Text encoder를 설계하여 텍스트 합성에 특화
SCEdit : SC-Tuner를 통해 skip connection을 편집
IP-adapter : Decoupled cross-attention을 통해 image feature prompting
InstructVideo : Human feedback을 통해 text-to-video 확산 모델을 fine-tuning
StreamDiffusion : RTX 4090 GPU에서 최대 91.07 fps로 이미지 생성 가능
Fairy : Temporal attention 없이 cross-frame attention, equivariant fine-tuning만으로 시간적 일관성 향상
PIA : 이미지에 affinity score를 더하여 각 프레임에 조건화
DreamTuner : DreamBooth + Subject Encoder + Self Subject Attention
VideoPoet : Multi-modal 입력을 처리하고 고품질 audio, video를 합성
IMP : 효율적이고 modality 확장이 가능한 LIMoE
TF-T2V : 동영상 플랫폼에 널려있는 고품질 unlabeled video를 훈련에 활용
SOLAR 10.7B : 매우 간단하고 효율적인 depth up-scaling 방법으로 모델 업스케일링
MotionCtrl : 생성 비디오의 camera motion과 object motion을 독립적으로 제어
WaveCoder : Generator-Discriminator Framework를 통해 일반화 능력을 크게 향상할 수 있는 instruction dataset 제작
SPM : 개념 침식을 일으키지 않고 특정 개념을 삭제할 수 있는 adapter
SSR-Encoder : 참조 이미지에서 피사체를 선택적으로 캡처할 수 있도록 설계된 condition encoder
TinyGPT-V : 매우 효율적인 MLLM
LARP : Open world role-playing을 위한 agent 설계
Improving Text Embeddings with Large Language Models : LLM을 fine-tuning 하여 text embedding model 얻기
Semantic-DDM : h-space 잠재 표현 수정을 통해 생성 이미지 제어
LooseControl : 정확한 depth map 대신 일반화된 depth map을 soft condition으로 사용
Directed Diffusion : Cross-attention map에 activation을 생성하여 bbox를 통해 위치 제어
TrailBlazer : Bounding box를 통해 비디오에서 피사체를 안내
DocLLM : LLM이 layout을 고려하여 시각적 문서를 추론할 수 있도록 함
BK-SDM : U-Net의 일부 블록을 제거하고 증류하여 피라미터 줄임
Mistral 7B : LLaMA2 기반 모델 (Sliding window attention, Rolling buffer cache)
Mamba : SSM에 선택성을 부여하고 하드웨어 최적화
FateZero : Inversion을 통해 얻은 attention map을 사용해 시간적 일관성 향상
Delta Denoising Score : SDS를 응용하여 최소한의 수정으로 이미지 편집
Zero Bubble Pipeline Parallelism : 역전파 분할, 자동 스케줄링, 동기화 우회를 통해 zero bubble 달성
DDPM Inversion : DDPM의 편집 친화적인 latent noise space를 추출하는 inversion 방법
LLM-grounded Diffusion : LLM이 layout을 생성하여 diffusion model을 안내
InternLM-XComposer : 자연스러운 Interleaved Text-Image Composition
Jailbroken: How Does LLM Safety Training Fail? : Jail-breaking에 대해 조사하고 2가지 실패 모드 가설을 세움
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! : 10개의 유해한 예제에 대한 fine-tuning 만으로도 LLM의 안전성을 크게 손상시킬 수 있다.
Improved Techniques for Training Consistency Models : Distillation 없이 consistency model을 직접 학습하는 consistency training의 개선된 기법 소개
Emu : 수천 개의 고품질 이미지만으로 Quality-Tuning을 수행하여 매력적인 이미지를 생성
Emu Edit : 단일 모델로 다양한 task에 대해 instruction-based image editing이 가능
DSIR : 원시 데이터셋에서 importance weight를 반영하여 적절한 데이터 부분집합 선택
SoftMoE : MoE의 문제들을 해결하면서 이점을 유지하는 완전 미분 가능한 MoE
Zoology : Gated Convolution-Attention Hybrid model을 통해 multi-query associative recall 작업에서의 성능 향상
BitNet : 가중치를 1-bit로 양자화
Dataset Diffusion : 확산 모델을 통해 semantic segmentation dataset을 생성
Prometheus : Evaluator LM을 훈련하기 위해 설계된 feedback collection dataset으로 훈련된 모델
SMEAR : 전문가의 가중 평균을 통해 구성된 단일 병합 전문가를 사용하여 보조 손실 없는 훈련을 가능하게 함
Randomized Positional Encodings : 훈련 시 훈련 데이터의 최대 길이보다 긴 위치 인코딩을 시뮬레이션하여 추론에 적용
2024
VideoDrafter : LLM, Img model, Vid model을 활용하여 일관성 있는 multi-scene video 생성
LLaMA Beyond English : 다른 언어로의 전이 학습에 대한 조사
Moonshot : IP-Adapter에 temporal attention을 더하여 비디오 생성
TinyLlama : LLaMA2 기반에 1T 개의 토큰으로 pretraining 된 1.1B 모델
Instruct-Imagen : 생성 모델을 자연어로 제어할 수 있도록 multi-modal instruction tuning
Segmind-Vega : Attention layer를 제거하고 layer level loss를 사용하여 증류
DVT : Positional Embedding에 의해 유발되는 noise artifact를 제거하는 네트워크
Mixtral 8x7B : Mistral 7B + Mixture of experts
MoE-Mamba : MoE + Mamba
LMC-SDS : Score Distillation Sampling을 분석하고 더 깨끗한 gradient를 제공할 수 있는 방법 제안
PixArt-δ : PixArt-α + Latent Consistency Model + ControlNet
Parrot : Multi-reward 간에 Pareto 최적인 샘플만 훈련에 사용
Object-Centric Diffusion : 배경 영역의 계산을 줄임으로써 빠른 비디오 편집
PALP : LoRA를 통해 Target Prompt Personalization
Autoregressive Image Model : Autoregressive objective를 통해 ViT를 확장하여 대규모 vision model 구축
InstantID : IP-Adapter, ControlNet을 통해 ID 조건화
Vision Mamba : 2방향 스캔을 통해 시각 모델링이 가능한 Mamba
UniVG : 자유도가 낮은 작업인 animation, super-resolution에서 목표 분포로의 전환을 학습할 수 있도록 함
VideoCrafter2 : 저품질 비디오 모델을 고품질 이미지를 통해 fine-tuning
VMamba : 4방향 스캔을 통해 시각 모델링이 가능한 Mamba
DiffusionGPT : LLM agent system을 통해 prompt에 적합한 확산 모델을 동적으로 선택하여 이미지 생성
Self-Rewarding Language Models : 언어 모델이 학습 중에 스스로 보상을 제공하여 자가 개선
Medusa : 메두사 같은 병렬 헤드를 통한 빠른 생성
Depth Anything : 단순한 Encoder-Decoder 구조로 모든 이미지를 처리하는 depth foundation model
EmerDiff : Stable Diffusion의 의미론적 지식을 활용하여 추가 학습 없이 segmentation
Recaptioning, Planning, and Generating : 복잡한 이미지 생성을 LLM을 통해 간단한 하위 영역 생성으로 분해
Binoculars : 한 쌍의 LLM을 대조하여 간단하게 LLM이 생성한 글을 탐지
Large-scale Reinforcement Learning for Diffusion Models : 다양한 보상 함수에 대한 대규모 공동 훈련
Lumiere : 전체 프레임을 한 번에 생성하는 Space-Time U-Net
SUPIR : 큰 모델, 대규모 데이터, MLLM의 이해력을 활용한 이미지 복원
CrossMAE : MAE에서 디코더의 self-attention을 제거, 훨씬 빠르고 성능 좋음
Diffuse to Choose : Virtual try-on을 위한 확산 기반 인페인팅 모델
SliceGPT : Weight matrix를 small matrix로 대체
MoE-LLaVA : Mixture-of-Experts + LLaVA
InternLM-XComposer2 : Visual token에만 LoRA를 적용하는 Partial LoRA
Motion-I2V : Drag Motion guide. 모션 예측과 비디오 생성을 분리하여 명시적인 모션 모델링이 가능
Weak-to-Strong JailBreaking : 작은 규모의 unsafe model을 통해 큰 모델의 출력 분포를 조정하여 Jail-Breaking을 유도
AR2Diff : Text Diffusion과 AR model 비교, 사전 훈련된 AR 모델을 확산 모델로 변환하는 AR2Diff 방법 조사
YOLO-World : 빠르고 정확하게 open-vocabulary detection이 가능한 YOLO 기반 모델
AnimateLCM : Image prior, motion prior 추출을 분리하는 학습 전략과 plug-and-play adapter를 효율적으로 적응하는 전략 제안
Boximator : Bounding box, motion path를 통해 비디오를 제어
DeepSeekMath : DeepSeekMath corpus, Group Relative Policy Optimization (GRPO)
OpenMoE : Routing mechanism을 심층적으로 분석하고 OpenMoE를 open-source로 출시
ConsiStory : 사전 훈련된 모델의 내부 활성화를 공유하여 일관된 subject 생성을 가능하게 하는 훈련 없는 접근 방식
EVA-CLIP-18B : EVA-CLIP을 18B까지 확장
Self-Discover : 복잡한 추론 문제를 해결하기 위해 LLM이 작업 내재적 추론 구조를 스스로 발견
BiLLM : 고정밀 추론이 가능한 1-bit post-training quantization (PTQ) 방식
More Agents Is All You Need : 간단한 sampling 및 voting을 통해 LLM의 성능 향상
LargeWorldModel : Ring attention을 활용하여 1M 길이의 context에 대한 multi-modal modeling
Mixtures of Experts Unlock Parameter Scaling for Deep RL : 강화 학습에서 MoE를 통한 피라미터 확장으로 성능 향상
BASE TTS : 100K 시간의 음성 데이터에 대해 훈련된 대규모 autoregressive TTS model
CoT-decoding : 단순히 decoding process를 변경함으로써 prompting 없이 CoT reasoning path를 도출
GRIT : Instruction tuning을 통해 LLM이 embedding과 generative task를 구별하여 처리할 수 있도록 훈련
SPIN : SFT data를 활용한 self-play mechanism을 통해 성능을 점진적으로 향상
SPIN-Diffusion : Self-Play Fine-Tuning (SPIN)을 확산 모델에 적용
ReBased : In-Context Learning 능력을 증폭시키기 위한 Linear Transformer Kernel 설계
Speculative Streaming : Speculation & Verification 통합, Multi-stream attention을 통해 효율적인 speculative decoding
LongRoPE : 검색을 통해 최적의 RoPE 재조정 인자를 찾고 LLM context window를 2048k까지 확장
FiT : RoPE의 context 확장을 이미지에 적용해 무제한의 해상도와 종횡비의 이미지를 생성
Neural Network Diffusion : 확산 모델을 통해 neural network parameter를 생성
SDXL-Lightning : Progressive, adversarial distillation을 결합하여 1-step으로 1024x1024 이미지 생성
YOLOv9 : Information bottleneck 완화
SearchFormer : Transformer를 통해 maze, sokoban puzzle과 같은 복잡한 의사 결정 작업 해결
MobileLLM : 가중치 공유 등 여러 기술들을 활용하여 매우 효율적인 on-device LLM
Multi-LoRA Composition : LoRA 병합 방법인 LoRA-S, C와 Testbed인 ComposLoRA 제안
BitNet b1.58 : Ternary quantization {-1,0,1}을 통해 고정밀도 LLM과 같은 성능
EMO : 강한 조건을 사용하지 않고 원활한 프레임 전환, 일관된 ID가 보장된 비디오 생성
VisionLLaMA : 피라미드 형태의 LLaMA-like vision transformer
NaturalSpeech 3 : 음성의 다양한 속성을 각 하위 공간으로 인수분해하여 개별적으로 생성
GaLore : Gradient를 low-rank로 투영하여 메모리 집약적인 계산을 수행
ELLA : Timestep-Aware Semantic Connector를 통해 LLM과 확산 모델을 연결하여 텍스트 정렬을 향상
PixArt-Σ : 사전 훈련된 Diffusion Transformer를 효율적으로 fine-tuning 하여 4K 해상도의 이미지를 생성
Stable Diffusion 3 : Transformer backbone, Rectified flow
Fuyou : 단일 GPU 상용 서버에서 대규모 모델을 fine-tuning 할 수 있도록 ZeRO-Infinity를 개선
Branch-Train-MiX : LLM을 각 도메인에 대해 개별 훈련한 후 단일 MoE 모델로 통합
Chronos : LLM architecture를 이용한 시계열 모델링 프레임워크
MoAI : Detection, OCR 등의 외부 CV 모델의 출력을 언어화하여 Vision-Language task에 활용
SD3-Turbo : Adversarial Diffusion Distillation과 달리 잠재 확산 모델의 generative feature를 활용하여 ADD의 한계를 극복
RAFT : Test domain을 알고 있다면 모델이 retriever가 가져온 문서를 스스로 필터링하도록 훈련할 수 있다
LoRA+ : LoRA의 A, B 행렬에 각각 다른 학습률을 적용하여 더 효율적으로 훈련
DoRA : 가중치를 크기와 방향이라는 2가지 구성요소로 분해하여 효율적이고 정확하게 fine-tuning
Quiet-STaR : LLM이 prompt를 읽거나 답변을 생성할 때 내부적으로 근거를 생각하며 추론하도록 함
Bounded Attention : Layout에 맞는 이미지를 생성할 수 있는 Bounded Attention 제안
FlexEdit : 각 step에서 latent를 반복적으로 조정하여 다양한 편집 작업 가능
B-LoRA : 두 개의 특정 블록의 LoRA 가중치를 학습하여 암시적으로 content와 style을 분리
ViTAR : Grid Attention, Fuzzy PE를 통해 낮은 비용으로 다양한 해상도의 이미지 처리
Mini-Gemini : 고해상도 이미지에 대한 추가 vision encoder를 통해 이미지 이해를 향상
sDPO : Dataset을 분할하여 단계적으로 DPO 수행
Jamba : Transformer + Mamba + MoE
Gecko : Query-passage pair를 순진하게 사용하지 않고 재지정하여 text embedding dataset의 품질 향상
SPRIGHT Dataset : Vision dataset의 이미지를 recaption 하여 공간 중심적 데이터셋 제작
Eurus : Multi-turn interaction 궤적을 수집하여 SFT, Preference Learning에 사용
InstantStyle : 참조 이미지에서 content와 style을 분리하고 style attention block에만 주입
Octopus v2 : Function calling on-device model에서 calling과 parameter 생성을 결합하여 추론 시간을 크게 줄임
Mixture-of-Depths : 특정 계층에서 계산에 참여하는 토큰 수를 제한하여 FLOPs를 동적으로 할당
Think-and-Execute : Task-level logic에 대한 의사 코드를 생성하고 코드 실행을 시뮬레이션하여 추론
VAR : AR modeling의 next-token 예측을 next-scale 예측으로 재정의
CoMat : 정확한 text-image 정렬을 가능하게 하는 end-to-end fine-tuning 전략
ReFT, LoReFT : 가중치 대신 표현을 수정하는 Representation Fine-Tuning의 개념과 low-rank를 활용하여 효율적으로 표현에 개입할 수 있는 LoReFT 제안
MagicTime : Time-lapse video를 통해 실제 물리 지식을 학습하여 metamorphic video 생성이 가능
Ferret-UI : 긴 종횡비를 가진 UI 화면을 이해하고 상호작용할 수 있다
LLM2Vec : LLM을 text encoder로 변환하는 효율적이고 간단한 비지도 접근 방식
Infini-attention : 압축 메모리와 linear attention을 활용하여 제한된 메모리에서도 무한히 긴 context를 처리
Rho-1 : Hard token을 무시하고 useful token만을 선택적으로 훈련하는 Selective Language Modeling 사용
ControlNet++ : Cycle consistency를 명시적으로 최적화하여 이미지 제어를 향상
JetMoE-8B : SMoE를 채택하여 10만 달러 미만의 비용으로 효율적이고 뛰어난 성능
Ferret-v2 : Ferret의 업그레이드 버전
TR-DPO : 학습 중에 참조 정책을 업데이트
Megalodon : 기존의 Mega를 개선하여 무제한 context 길이로 효율적인 시퀀스 모델링 가능
TransformerFAM : Global information을 제공하는 feedback attention memory를 통해 무한 시퀀스를 처리
Dynamic Typography : 사용자 프롬프트에 따라 텍스트에 움직임을 불어넣는 end-to-end 최적화 프레임워크
AlphaLLM : Monte Carlo Tree Search를 통합하여 LLM self-improvement
TextSquare : 대규모 고품질 VQA 데이터셋을 통해 MLLM의 성능, 특히 텍스트 인식을 크게 향상
Groma : Region encoding을 기반으로 region-level task에 능숙한 MLLM
AutoCrawler : HTML의 계층적 구조와 LLM을 활용하여 확장성이 뛰어난 crawler
Phi-3 : 오직 훈련 데이터만 변경함으로써 작은 3.8B 모델로 타 대형 모델에 필적하는 성능을 달성했다
Instruction Hierarchy : LLM에 명령어 계층을 도입하여 악의적 prompt를 선택적으로 무시
OpenELM : Layer-wise scaling을 적용한 경량 언어 모델인 OpenELM의 모든 정보, 프레임워크를 투명하게 공개
Multi-Head MoE : Input token을 sub-token으로 분해한 뒤 여러 expert에 할당하여 expert 활성률을 높이고 성능 향상
CatLIP : Image-text pretraining을 분류 작업으로 재구성하여 성능을 유지하면서도 빠르게 훈련
Layer Skip : 레이어를 조기 종료하고 병렬로 검증하여 보조 모델 없이 빠르게 디코딩
InternVL-1.5 : 동적 고해상도 처리, 고품질 이중언어 데이터셋으로 훈련
FILM : Long-context의 중간에 필요한 정보를 배치하고 훈련하여 long-context에서의 성능 향상
PLLaVA : Image pretrained MLLM을 비디오에 간단하고 효과적으로 적용하기 위한 방법 조사
PoLL : Panel of LLM evaluators를 구성하여 LLM의 품질을 평가
Octopus v3 : Octopus v2 + vision
Octopus v4 : Function token을 통해 다른 모델을 호출하여 추론
InstantFamily : Multi-modal embedding stack, masked cross-attention을 통해 multi-ID 생성 문제 해결
Multi-token prediction : Multi-token prediction training을 하면 single-head에서도 성능이 향상된다?
Iterative RPO : CoT를 DPO에 사용하여 모델을 반복적으로 개선
StoryDiffusion : Consistent self-attention을 통해 일관된 이미지, motion predictor를 통해 부드러운 비디오 생성
Prometheus 2 : 직접 평가 및 쌍별 순위 지정을 모두 수행할 수 있고 이전 버전보다 향상된 evaluator LM
Lory : Autoregression을 위해 설계된 완전히 미분 가능한 MoE 아키텍처
Idefics2 : VLM의 구성에 대한 광범위한 실험을 수행하고 결과를 기반으로 foundational VLM 개발
Is Flash Attention Stable? : 훈련 불안정의 잠재적인 원인인 수치 편차를 정량화하는 방법 제안
AlphaMath Almost Zero : Monte Carlo Tree Search를 활용하여 인간 주석 데이터 없이 LLM의 수학 추론 프로세스 개선
YOCO : Decoder를 KV 캐시를 생성하는 self-decoder, 생성된 캐시를 재사용하는 cross-decoder로 분리하여 효율성 향상
Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? : 새로운 사실적 지식을 학습하는 것이 LLM에 미치는 영향을 조사
DeepSeek-V2 : MoE를 통한 경제적인 훈련, KV 캐시 압축을 통한 효율적인 추론이 특징인 236B MoE 모델
xLSTM : 최신 LLM 기술을 활용하여 LSTM을 수십억 피라미터로 확장
Diffusion2GAN : 잠재 공간에서 작동하는 새로운 증류 손실을 통해 확산 모델을 GAN으로 추출
Fishing for Magikarp : Tokenizer vocabulary 내에서 훈련되지 않은 토큰을 감지하는 방법 개발
Grounding DINO 1.5 : Grounding DINO에서 탐지 성능, 추론 속도 개선
The Platonic Representation Hypothesis : 대부분의 deep networks는 modality에 상관 없이 결국 단일 표현 공간으로 수렴될 것이며, 이를 platonic representation이라고 명명
Chameleon : 사전 훈련 모델을 활용하지 않고 end-to-end 방식으로 처음부터 훈련된 multi-modal model
FIFO-Diffusion : 사전 훈련된 확산 모델을 기반으로 추가 훈련 없이 무한히 긴 비디오 생성
LoRA Learns Less and Forgets Less : Code&math에서 LoRA와 full-finetuning의 차이를 비교, 분석
Cross-Layer Attention : 레이어 간 KV cache를 공유
MoRA : Non-parameter 연산자를 통해 LoRA와 동일한 피라미터 수를 유지하면서도 high-rank update 달성
Your Transformer is Secretly Linear : Transformer decoder layer 간의 높은 선형성을 식별하고 이를 활용할 방법 제안
RLHF Workflow : Online Iterative RLHF에 대해 재현하기 쉽고 자세한 레시피를 제공하는 것이 목표
SimPO : DPO보다 간단하면서도 더 효과적임
DIAMOND : Diffusion model이 생성한 world에서 훈련된 RL agent
ConvLLaVA : MLLM의 visual encoder를 ConvNeXt로 대체하여 계산을 줄이고 성능 향상
Meteor : 근거 순회라는 개념을 통해 LLM에 암시적으로 근거를 제공하여 이해 능력 향상
NV-Embed : Latent attention layer, contrastive instruction-tuning을 통해 최첨단 성능의 텍스트 임베딩 모델 개발
Abacus Embeddings : 각 숫자의 자릿수를 인코딩하는 임베딩을 추가하여 산술 작업의 능력을 획기적으로 향상
GNN-RAG : GNN의 그래프 검색 능력과 LLM의 언어 이해 능력을 결합하여 Knowledge Graph QA task에 이용
ShareGPT4Video : 신중하게 설계된 filtering, captioning 전략을 통해 생성된 고품질 데이터셋으로 비디오 이해 능력 향상
Tree Diffusion : Syntax tree에 순차적으로 추가된 noise를 반전시켜 역 그래픽 작업을 수행
MCTSr : LLM과 MCTS를 혁신적으로 통합하여 수학적 추론 능력 향상
MatMul-Free LM : LLM에서 값비싼 MatMul 작업을 완전히 제거
Samba : Mamba와 Sliding Window를 계층적으로 결합한 hybrid architecture
Goldfish Loss : 훈련 목표의 간단한 수정을 통해 기억 능력을 감소시켜 정보 누출 위험을 피함
Depth Anything V2 : Depth Anything의 업그레이드 버전
Daredevil-8B : 유해한 명령을 거부하는 단일 방향을 찾아 제거
OMG-LLaVA : 범용 분할 모델을 visual encoder로 사용하여 pixel-level 능력을 향상한 MLLM
Step-DPO : 최적화 단위를 개별 답변에서 개별 추론 단계로 분해하여 긴 수학적 추론 능력 향상
LivePortrait : 실용적인 사용을 위해 더 나은 일반화, 제어 가능성 및 효율성에 초점을 맞춘 portrait animation framework
'논문 리뷰 > 논문 분류' 카테고리의 다른 글
짧은 개념 모음 (1) | 2023.12.01 |
---|---|
Language 논문 분류 (0) | 2023.06.11 |
GAN 논문 분류 (0) | 2023.01.11 |
Vision Transformer 논문 분류 (0) | 2023.01.11 |
Diffusion 논문 분류 (0) | 2022.09.14 |
기타 논문 분류 (0) | 2022.06.10 |