본문 바로가기

분류 전체보기

(525)
Self-Discover: Large Language Models Self-Compose Reasoning Structures [arXiv](2024/02/06 version v1) Abstract 복잡한 추론 문제를 해결하기 위해 LLM이 작업 내재적 추론 구조를 스스로 발견하는 Self-Discover를 소개한다. Chain of Thought (CoT), CoT-Self-Consistency와 같은 방법들보다 10~40배 적은 컴퓨팅 능력을 사용하면서 성능은 더 뛰어나다. lntroduction 아래 그림과 같이 LLM, task examples without labels, 문제 해결 휴리스틱을 나타내는 일련의 자연어 atomic reasoning modules (e.g. 'breakdown into sub tasks', 'critical thinking', ' think step by step')이 주어지면, LLM이 추..
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters [Github] [arXiv](2024/02/06 version v1) Abstract 현재까지 가장 크고 강력한 open-source CLIP model인 EVA-CLIP-18B 출시 참고: [EVA-01, EVA-02, EVA-CLIP] Introduction EVA-CLIP을 18B까지 확장. 포화의 징후를 보이지 않아 추가로 확장할 수 있는 잠재력이 있다. Weak-to-Strong Vision Scaling EVA 시리즈의 철학에 따라 작은 모델의 지식을 큰 모델로 증류하고 반복해서 더 큰 모델로 증류한다. EVA-02-CLIP-E/14+를 교사로 EVA-02를 18B까지 확장하고 데이터셋은 대부분 고정된 상태로 유지된다. 또한 EVA-18B(≠ EVA-CLIP-18B)는 QKV projecti..
Training-Free Consistent Text-to-Image Generation (ConsiStory) [arXiv](2024/02/05 version v1) Abstract 사전 훈련된 모델의 내부 활성화를 공유하여 일관된 subject 생성을 가능하게 하는 훈련 없는 접근 방식인 ConsiStory 제안 Method Subject-driven self-attention Enriching layout diversity Feature injection Anchor images and reusable subjects Multi-subject consistent generation Subject-driven self-attention 모든 diffusion timestep과 32x32 해상도의 모든 cross-attention layer에서 attention map을 수집하고 임계값을 적용하여 subject ..
OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models [Github] [arXiv](2024/01/29 version v1) Abstract Routing mechanism을 심층적으로 분석하고 OpenMoE를 open-source로 출시 Designing OpenMoE Pre-training Dataset: More Code than Usual 저자는 코드 데이터가 매우 중요하다고 강조한다. 복잡한 추론 능력을 향상시킬 수 있음 모호한 자연어와 달리 항상 명확함 코드 데이터인 The Stack Dedup이 데이터의 50%를 차지한다. Model Architecture: Decoder-only ST-MoE Tokenizer 대규모 다국어 vocabulary를 갖추고 out-of-vocab token을 더 잘 지원하는 umT5 tokenizer를 사용한다. ..
ST-MoE: Designing Stable and Transferable Sparse Expert Models [Github] [arXiv](2022/04/29 version v2) Abstract MoE의 안정적인 훈련을 위한 Router z-loss 제안 Background Mixture of Experts (MoE) 라우터는 변수 W를 통해 softmax로 정규화되는 logits h(x)를 생성한다. Stabilizing Training of Sparse Models Sparse model은 훈련이 불안정하다. 품질을 저하시키지 않고 안정적으로 훈련하는 방법에 대한 연구. Stability and quality tradeoffs when removing multiplicative interactions 두 가지 multiplicative interaction을 제거 GEGLU RMS Scale Paramet..
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models [Github] [arXiv](2024/02/06 version v2) Contributions Math Pre-Training at Scale Common Crawl에서 세심하게 설계된 데이터 선택 파이프라인을 통해 DeepSeekMath corpus 구축 DeepSeekMath-Base 7B를 통해 고품질 데이터로 훈련된 작은 모델이 강력한 성능을 달성할 수 있음을 보여줌 코드에 대한 훈련은 수학적 추론 능력에 도움이 된다 arXiv 논문에 대한 훈련은 많은 수학 관련 작업에서 일반적이지만 본문에서는 별 효과가 없었다 Exploration and Analysis of Reinforcement Learning 효과적인 강화 학습 알고리즘인 Group Relative Policy Optimization ..
Data Selection for Language Models via Importance Resampling (DSIR) [arXiv](2023/11/18 version v3) Introduction 적절한 사전 훈련 데이터셋의 선택은 중요하다. 대규모 raw unlabeled dataset에서 원하는 target distribution에 맞는 데이터 부분 집합을 선택하기 위해 Data Selection with Importance Resampling (DSIR)을 제안한다. Setup 목표 예제 x'1, ... , x'n이 주어지면 원시 데이터셋 x1, ... , xN에서 k개의 예제를 선택하는 것을 목표로 한다. Selection via heuristic classification 일반적으로 사용되는 휴리스틱 분류: Data Selection with Importance Resampling 1. 각각의 분포에서 추출된 ..
Boximator: Generating Rich and Controllable Motions for Video Synthesis [Project Page] [arXiv](2024/02/02 version v1) Abstract Bounding box, motion path를 통해 비디오를 제어할 수 있는 Boximator 제안 Boximator: Box-guided Motion Control Model architecture Data pipeline Self-tracking Multi-Stage training procedure Inference Model Architecture Spatial attention block의 self-attention과 cross-attention 사이에 새로운 attention block을 삽입한다. bloc : box의 좌표 bid : 여러 개의 box가 있을 때 box의 id를 RGB colo..
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [Project Page] [arXiv](2023/11/16 version v1) Abstract 단일 모델로 다양한 task에 대해 instruction-based image editing이 가능한 Emu Edit 소개 Multi-Task Dataset for Image Editing Task Categories 3가지 주요 범주의 각 작업으로 구성됨. Instruction Generation In-context learning을 활용하여 작업별 예시 및 이미지 캡션을 제공하면 LLM이 편집 지침, 이상적인 출력 이미지에 대한 출력 캡션, 원본 이미지에 업데이트해야 하는 개체를 출력하도록 한다. Image Pairs Generation Prompt-to-Prompt, OCR, DINO, SAM 등의 다..
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack [arXiv](2023/09/27 version v1) Abstract 수천 개의 고품질 이미지만으로 Quality-Tuning을 수행하여 매력적인 이미지를 생성할 수 있는 Emu 제안 Approach Latent Diffusion Architecture Pre-training High-Quality Alignment Data Quality-Tuning Latent Diffusion Architecture Latent Diffusion autoencoder의 채널을 확장하면 품질이 크게 향상된다. 또한 전처리로 fourier feature transformation을 적용하고 적대적 손실을 추가하면 더욱 향상된다. 또한 피라미터 수가 2.8B인 대규모 U-Net을 사용하고 CLIP ViT-L, T5-XX..
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning [Project Page] [Github] [arXiv](2024/02/01 version v1) Abstract Image prior, motion prior 추출을 분리하는 학습 전략과 plug-and-play adapter를 효율적으로 적응하는 전략 제안 Consistency Models Consistency Models 논문 리뷰 : 매우 자세한, 간단 버전 일반적으로 잔차 연결을 통해 consistency model을 피라미터화 한다. xtn+1을 샘플링하고 ODE solver를 통해 xtnΦ를 계산하여 인접한 한 쌍의 데이터 포인트(xtnΦ, xtn+1)를 생성할 수 있고 데이터 포인트 쌍에 대한 일관성 모델의 출력의 차를 최소화하여 consistency distillation loss를 유도..
Improved Techniques for Training Consistency Models [Github] [arXiv](2023/10/22 version v1) Abstract Distillation 없이 consistency model을 직접 학습하는 consistency training의 개선된 기법 소개 Consistency Models Consistency Models 논문 리뷰 잔차 연결을 통해 CM을 피라미터화. σ = noise level CM loss: N이 작을수록 Δt가 크다. fθ = student network, fθ̄ = teacher network라고 한다. Teacher network는 EMA로 업데이트된다. 일관성 증류(CD)의 경우 확산 모델 s를 통해 Consistency Training (CT)의 경우 데이터 x와 가우시안 노이즈 z를 활용하여 훈련 후 가우..