본문 바로가기

논문 리뷰

(452)
One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications (SPM) [Project Page] [Github] [arXiv](Current version v1) Abstract 개념 침식을 일으키지 않고 특정 개념을 삭제할 수 있는 adapter인 SPM 제안 Introduction Fine-tuning을 통한 개입은 위 그림과 같이 개념 침식(concept erosion)을 일으킨다. DM에 membrane으로 주입하여 반투과성(SemiPermeability) 개념을 학습할 수 있는 1-dim non-invasive adapter를 개발한다. SPM은 보조적인 훈련 데이터 없이도 사전 훈련된 모델을 유지하면서 개념을 지우는 방법을 학습한다. 삭제된 SPM corpus를 확보하면 재조정 없이도 다른 DM으로 이전할 수 있다. 한꺼번에 여러 개념을 삭제할 수 있고 SOTA..
Compositional Visual Generation and Inference with Energy Based Models [Project Page] [Github] [arXiv](Current version v3) Abstract 에너지 기반 모델이 확률 분포를 직접 결합함으로써 개념의 결합, 분리, 부정을 동시에 만족하는 자연스러운 이미지를 생성할 수 있음을 보여준다. Method Energy-Based Models Langevin dynamics를 사용한 EBM 샘플링: Composition of Energy-Based Models 다음 그림은 CelebA face dataset에서 각 개념에 대해 독립적으로 훈련된 EBMs set의 조합을 보여준다. Concept Conjunction Product of Experts 다음과 같이 샘플링한다. Concept Disjunction 각 개념에 대한 or 분포는 likeli..
Implicit Generation and Modeling with Energy-Based Models [Github] [arXiv](Current version v6) Abstract Energy based models (EBMs)는 일반성과 단순성으로 인해 매력적이지만 훈련하기가 어려웠다. 본 논문에서는 MCMC based EBM training을 확장하는 기법을 소개한다. Energy-Based Models and Sampling 데이터 포인트 x, 에너지 함수 E(x)는 볼츠만 분포를 통해 확률 분포를 정의한다. 하지만 해당 분포에서는 샘플링이 어려워 MCMC 방법에 의존했다. 샘플링 절차의 혼합 시간을 개선하기 위해 에너지 함수의 gradient를 이용해 샘플링을 수행하는 Langevin dynamics를 사용한다. Maximum Likelihood Training E로 정의된 분포가 데이터 분포..
WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation Generator-Discriminator Framework를 통해 일반화 능력을 크게 향상할 수 있는 instruction dataset 제작 [arXiv](Current version v2) Abstract Instruction tuning 방법은 중복 데이터를 생성하는 경우가 많으며 데이터 품질을 충분히 제어할 수 없다. 4개의 범용 코드 관련 작업에 걸쳐 20k의 instruction instance로 구성된 데이터셋인 CodeOcean을 소개하고 새로운 fine-tuned Code LLM인 WaveCoder를 제안한다. CodeOcean: Four-task Code-related Instruction Data Tasks Setting 코드와 관련된 가장 보편적인 4가지 작업 선택: Code Su..
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [Project Page] [Github] [arXiv](Current version v1) Abstract 생성 비디오의 camera motion과 object motion을 독립적으로 제어할 수 있는 MotionCtrl 제안 Introduction 한 가지 문제는 caption, camera motion, object motion을 포함하는 기존 데이터셋이 없다는 것이다. 문제를 해결하기 위해 Camera Motion Control Module (CMCM), Object Motion Control Module (OMCM)을 채택하였다. Baseline은 LVDM의 개선 버전인 VideoCrafter1을 채택. Realestate10k dataset에서 캡션을 생성하여 카메라 포즈 주석과 캡션이 있는 ..
SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling 현재 Open LLM Leaderboard를 장악하고 있는 한국 AI 스타트업 업스테이지의 "SOLAR" ㄷㄷㄷ [HuggingFace] [arXiv](Current version v1) 현재(2023/12/28) leaderboard 1등인 Sakura-SOLAR-Instruct [Blog] [Github] Abstract Depth up-scaling(DUS) 기술을 소개하고 DUS를 사용하여 구축한 LLM인 SOLAR 10.7B 소개 SOLAR 10.7B Architectural Details 사전 훈련된 우수한 기본 모델에 DUS를 적용하여 scaled-up 모델을 얻는다. 다른 scale-up 방법인 MoE는 훈련 프레임워크의 복잡한 변경이 필요하지만 DUS는 기존의 훈련 및 추론 프레임워크를 ..
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos (TF-T2V) 동영상 플랫폼에 널려있는 고품질 unlabeled video를 훈련에 활용 단순무식한 end-to-end 공동 훈련의 힘인지 coherence loss의 힘인지 모델도 단순하고 진짜 별거 없어 보이는데 결과물은 굉장히 부드럽다. 요즘 temporal layer를 따로 훈련하는 방법이 확실히 결과물의 품질은 별로인 것 같다는 생각이 듦. [Project Page] [Github] [arXiv](Current version v1) Abstract 캡션이 있는 비디오 데이터는 많지 않고, youtube와 같은 동영상 플랫폼에서 비디오를 수집하는 것이 훨씬 쉽다. 텍스트 없는 비디오를 통해 학습할 수 있는 TF-T2V 제안. Method Preliminaries of video diffusion model VA..
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception (IMP) [arXiv](Current version v2) Abstract 간단하고 확장 가능한 multi-modal multi-task 훈련 및 모델링 접근 방식인 Integrated Multimodal Perception(IMP) 제안 Introduction 기존 데이터셋을 최대한 활용하고 작업 또는 손실 함수의 모든 조합에 대해 훈련할 수 있으며 새로운 데이터셋, 작업, 손실 함수를 추가해도 속도가 느려지지 않도록 하나의 multi-modal model을 훈련할 수 있는 방법을 탐색한다. 최근에 개발된 JAX primitives를 통해 AGD(Alternating Gradient Descent)와 MoE(Mixture of Experts)를 구현함으로써 유사한 배치 크기에서 2~8배의 계산이 필요한 여러 m..
Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts [Github] [arXiv](Current version v1) Abstract Multi-modal 학습이 가능한 MoE인 LIMoE(Language-Image MoE)를 제안 Multimodal Mixture of Experts Multimodal contrastive learning 같은 pair data (i, t)끼리 더 가깝도록, unpair data가 멀도록 훈련됨. The LIMoE Architecture 각각의 modality를 동일한 차원으로 투영하는 각각의 projection layer와 공유 transformer encoder로 입력을 처리하고 per-modality weight matrices Wm을 통해 projection한 후 Lj를 계산한다. Sparse MoE backbo..
Scaling Vision with Sparse Mixture of Experts (V-MoE) [Github] [arXiv](Current version v1) Abstract MoE를 ViT에 적용하여 절반의 계산 비용으로 동일한 성능을 내는 V-MoE 제안 The Vision Mixture of Experts Conditional Computation with MoEs MoE는 라우팅 함수 g()를 통해 입력을 각 전문가 ei(x)에 할당한다. g(x)가 희소한 경우 계산은 super-linear 하다. MoEs for Vision MLP layer에는 2개의 feedforward와 non-linearity가 있다. MLP layer 중 일부를 MoE layer로 대체한다. 위 그림이 좀 헷갈릴 수 있는데, 계산 효율성을 위해 배치 이미지들을 각 분산 장치에 입력하고, MoE layer에서 토..
VideoPoet: A Large Language Model for Zero-Shot Video Generation 지금까지 본 비디오 생성 모델 중에 움직임이 제일 부드러운 것 같다. [Google Research Blog] [Project Page] [arXiv](Current version v1) Abstract Multi-modal 입력을 처리하고 고품질 audio, video를 합성할 수 있는 VideoPoet 제안 Introduction 본 논문에서는 비디오 생성에서 LLM의 적용을 조사한다. VideoPoet은 각 양식을 이산 토큰으로 출력하는 decoder-only LLM architecture를 사용한다. VideoPoet의 훈련은 pretraining → task-adaptation으로 구성되며 별도의 확산 모델에 의존하지 않고 단일 LLM으로 통합된다. LLM인 VideoPoet은 zero-shot..
DreamTuner: Single Image is Enough for Subject Driven Generation DreamBooth + Subject Encoder + Self Subject Attention [Project Page] [arXiv](Current version v1) Abstract Subject-driven image generation을 효과적으로 달성하기 위해 coarse∙fine 정보를 주입하는 DreamTuner 제안 Method Subject-Encoder Self-Subject-Attention Subject-Driven Fine-Tuning Subject-Encoder 분할 모델을 통해 참조 이미지에서 배경을 분리하고 CLIP image encoder에 projection을 위한 ResBlocks 추가. U-Net의 transformer block에 Subject-Encoder At..