전체 글 (535) 썸네일형 리스트형 SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling 현재 Open LLM Leaderboard를 장악하고 있는 한국 AI 스타트업 업스테이지의 "SOLAR" ㄷㄷㄷ [HuggingFace] [arXiv](Current version v1) 현재(2023/12/28) leaderboard 1등인 Sakura-SOLAR-Instruct [Blog] [Github] Abstract Depth up-scaling(DUS) 기술을 소개하고 DUS를 사용하여 구축한 LLM인 SOLAR 10.7B 소개 SOLAR 10.7B Architectural Details 사전 훈련된 우수한 기본 모델에 DUS를 적용하여 scaled-up 모델을 얻는다. 다른 scale-up 방법인 MoE는 훈련 프레임워크의 복잡한 변경이 필요하지만 DUS는 기존의 훈련 및 추론 프레임워크를 .. A Recipe for Scaling up Text-to-Video Generation with Text-free Videos (TF-T2V) 동영상 플랫폼에 널려있는 고품질 unlabeled video를 훈련에 활용 단순무식한 end-to-end 공동 훈련의 힘인지 coherence loss의 힘인지 모델도 단순하고 진짜 별거 없어 보이는데 결과물은 굉장히 부드럽다. 요즘 temporal layer를 따로 훈련하는 방법이 확실히 결과물의 품질은 별로인 것 같다는 생각이 듦. [Project Page] [Github] [arXiv](Current version v1) Abstract 캡션이 있는 비디오 데이터는 많지 않고, youtube와 같은 동영상 플랫폼에서 비디오를 수집하는 것이 훨씬 쉽다. 텍스트 없는 비디오를 통해 학습할 수 있는 TF-T2V 제안. Method Preliminaries of video diffusion model VA.. Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception (IMP) [arXiv](Current version v2) Abstract 간단하고 확장 가능한 multi-modal multi-task 훈련 및 모델링 접근 방식인 Integrated Multimodal Perception(IMP) 제안 Introduction 기존 데이터셋을 최대한 활용하고 작업 또는 손실 함수의 모든 조합에 대해 훈련할 수 있으며 새로운 데이터셋, 작업, 손실 함수를 추가해도 속도가 느려지지 않도록 하나의 multi-modal model을 훈련할 수 있는 방법을 탐색한다. 최근에 개발된 JAX primitives를 통해 AGD(Alternating Gradient Descent)와 MoE(Mixture of Experts)를 구현함으로써 유사한 배치 크기에서 2~8배의 계산이 필요한 여러 m.. Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts [Github] [arXiv](Current version v1) Abstract Multi-modal 학습이 가능한 MoE인 LIMoE(Language-Image MoE)를 제안 Multimodal Mixture of Experts Multimodal contrastive learning 같은 pair data (i, t)끼리 더 가깝도록, unpair data가 멀도록 훈련됨. The LIMoE Architecture 각각의 modality를 동일한 차원으로 투영하는 각각의 projection layer와 공유 transformer encoder로 입력을 처리하고 per-modality weight matrices Wm을 통해 projection한 후 Lj를 계산한다. Sparse MoE backbo.. Scaling Vision with Sparse Mixture of Experts (V-MoE) [Github] [arXiv](Current version v1) Abstract MoE를 ViT에 적용하여 절반의 계산 비용으로 동일한 성능을 내는 V-MoE 제안 The Vision Mixture of Experts Conditional Computation with MoEs MoE는 라우팅 함수 g()를 통해 입력을 각 전문가 ei(x)에 할당한다. g(x)가 희소한 경우 계산은 super-linear 하다. MoEs for Vision MLP layer에는 2개의 feedforward와 non-linearity가 있다. MLP layer 중 일부를 MoE layer로 대체한다. 위 그림이 좀 헷갈릴 수 있는데, 계산 효율성을 위해 배치 이미지들을 각 분산 장치에 입력하고, MoE layer에서 토.. VideoPoet: A Large Language Model for Zero-Shot Video Generation 지금까지 본 비디오 생성 모델 중에 움직임이 제일 부드러운 것 같다. [Google Research Blog] [Project Page] [arXiv](Current version v1) Abstract Multi-modal 입력을 처리하고 고품질 audio, video를 합성할 수 있는 VideoPoet 제안 Introduction 본 논문에서는 비디오 생성에서 LLM의 적용을 조사한다. VideoPoet은 각 양식을 이산 토큰으로 출력하는 decoder-only LLM architecture를 사용한다. VideoPoet의 훈련은 pretraining → task-adaptation으로 구성되며 별도의 확산 모델에 의존하지 않고 단일 LLM으로 통합된다. LLM인 VideoPoet은 zero-shot.. DreamTuner: Single Image is Enough for Subject Driven Generation DreamBooth + Subject Encoder + Self Subject Attention [Project Page] [arXiv](Current version v1) Abstract Subject-driven image generation을 효과적으로 달성하기 위해 coarse∙fine 정보를 주입하는 DreamTuner 제안 Method Subject-Encoder Self-Subject-Attention Subject-Driven Fine-Tuning Subject-Encoder 분할 모델을 통해 참조 이미지에서 배경을 분리하고 CLIP image encoder에 projection을 위한 ResBlocks 추가. U-Net의 transformer block에 Subject-Encoder At.. PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models 이미지에 affinity score를 더하여 각 프레임에 조건화 [Project Page] [Github] [arXiv](Current version v1) Abstract 주어진 이미지로 정렬하고 텍스트를 통해 모션을 제어하는 PIA(Personalized Image Animator) 제안 PIA: Your Personalized Image Animator Plug-and-Play Modules for Animation 조건부 이미지 I를 잠재 공간으로 인코딩 E(I) = zI. 움직임의 정도를 정량화하기 위해 affinity score s 도입. 훈련 중에 s는 각 프레임에서 첫 번째 프레임과의 L1 거리를 통해 계산되고 [0,1]로 정규화된다. zI와 정렬하기 위해 si를 1×h×w로 확장하고 co.. Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis Temporal attention 없이 cross-frame attention, equivariant fine-tuning만으로 시간적 일관성 향상 [Project Page] [arXiv](Current version v1) Abstract 30 fps, 4s, 512x384 video를 14초 만에 생성할 수 있는 비디오 편집 확산 모델인 Fairy 제안 Implicit Tracking via Cross-frame Attention Cross-frame attention은 시간 대응 추적의 기능이 있다. 특히 고해상도 feature에서. Fairy: Fast Video-to-Video Synthesis Anchor-Based Model 모든 anchor frame의 K, V를 캐시에 추가. Query .. StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [Github] [arXiv](Current version v1) Abstract RTX 4090 GPU에서 최대 91.07 fps로 이미지를 생성할 수 있는 StreamDiffusion 제안 StreamDiffusion Pipeline Stream Batch Residual Classifier-Free Guidance Input-Output Queue Stochastic Similarity Filter Pre-Computation Model Acceleration Tools with a Tiny-Autoencoder Batching the denoise step 위 그림과 같이 stream batch를 사용하여 이전 이미지의 생성이 끝날 때까지 기다리지 않고 새로운 이미지 생성을 시작할 수 있다. 추론.. InstructVideo: Instructing Video Diffusion Models with Human Feedback [Project Page] [arXiv](Current version v1) Abstract Human feedback을 통해 text-to-video 확산 모델을 fine-tuning 하는 InstructVideo 제안 InstructVideo Reward Fine-tuning as Editing 우리의 목표는 출력을 크게 변경하는 것이 아니라 인간의 선호에 따라 미묘하게 조정하는 것이다. 입력 video-text pair (x, c)에 대해 x를 잠재 latent z로 추출하고 적당한 노이즈를 더한 다음(SDEdit) DDIM sampling step D의 일부(τ) 만큼 denoising 하여 z0을 얻은 후 x0g로 디코딩한다. Reward Fine-tuning with Image Reward M.. IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models [Project Page] [Github] [arXiv](Current version v1) Abstract Decoupled cross-attention을 통해 image feature를 분리하여 prompting 하는 IP-adapter 제안 Method Image Prompt Adapter Image Encoder CLIP image encoder의 출력을 projection layer를 통해 길이 N, 텍스트 임베딩과 같은 차원을 가진 feature로 투영. Decoupled Cross-Attention Text embedding과 image embedding을 통합하는 대신 새로운 cross-attention layer를 추가하고 같은 Query에 대해 수행된 각각의 cross-attention.. 이전 1 ··· 19 20 21 22 23 24 25 ··· 45 다음