본문 바로가기

논문 리뷰

(452)
VMamba: Visual State Space Model [Github] [arXiv](2024/01/18 version v1) Abstract Cross-Scan Module (CSM)을 통해 시각 모델링이 가능한 VMamba 제안 Method Preliminaries 2D Selective Scan VMamba Model Preliminaries 필독!!! Mamba Mamba: Linear-Time Sequence Modeling with Selective State Spaces SSM에 선택성을 부여하고 하드웨어 최적화 [Github] [arXiv](2023/12/01 version v1) Abstract Transformer 기반 모델들이 긴 시퀀스 처리에서 보여주는 계산 비효율성을 해결하기 위해 Mamba라는 새로운 신경망 구 ostin.tistor..
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models [Project Page] [Github] [arXiv](2024/01/17 version v1) Abstract 최근 몇몇 상업용 비디오 모델은 대규모의 잘 필터링된 고품질 비디오에 의존한다. 또한 저품질 WebVid-10M에서 모델을 훈련하는 많은 연구들은 고품질 비디오를 생성하기 어렵다. 본문에서는 저화질 비디오와 합성된 고품질 이미지를 활용하여 고품질 비디오를 생성할 수 있는 방법을 모색한다. 논문 한 줄 요약 : 고품질 비디오 데이터가 없을 때 저품질 비디오로 훈련된 T2V 모델에서 고품질 이미지를 통해 공간 모듈만 fine-tuning 하는 것이 가장 성능이 좋다. Method Spatial-temporal Connection Analyses Data-level Disentanglement o..
UniVG: Towards UNIfied-modal Video Generation [Project Page] [arXiv](2024/01/17 version v1) Abstract 저자유도 작업에서 효과적으로 분포를 전환할 수 있는 Unified-modal Video Genearation system (UniVG) 제안 Introduction 자유도가 높은 작업 - 약하게 제한되는 입력 조건(text, image)을 반영하는 생성 작업 자유도가 낮은 작업 - 애니메이션, 편집, 초해상도 등 픽셀 단위 작업 편집과 같은 저자유도 작업은 주로 일정한 노이즈를 추가한 다음 텍스트를 사용하여 분포를 조정하는 방식(e.g. SDEdit)을 사용한다. 하지만 이러한 편집 패러다임은 학습과 추론이 불일치하는 한계가 있다. 이때 고자유도 작업인 생성을 위해 훈련된 모델을 사용하기 때문이다. 이러한 ..
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [Github] [arXiv](2024/01/17 version v1) Abstract Bidirectional Mamba block을 사용한 새로운 vision backbone인 Vision Mamba (Vim) 제안 Method Preliminaries Vision Mamba Vim Block Preliminaries 필독!!! Mamba Mamba: Linear-Time Sequence Modeling with Selective State Spaces SSM에 선택성을 부여하고 하드웨어 최적화 [Github] [arXiv](2023/12/01 version v1) Abstract Transformer 기반 모델들이 긴 시퀀스 처리에서 보여주는 계산 비효율성을 해결하기 위해 Mamba라는 새로운 신경..
InstantID: Zero-shot Identity-Preserving Generation in Seconds IP-Adapter, ControlNet을 통해 ID 조건화 [Project Page] [Github] [arXiv](2024/01/15 version v1) Abstract Plug&Play 방식, 하나의 얼굴 이미지만으로 개인화를 능숙하게 처리하는 InstantID 제안 Methods Preliminaries Stable Diffusion ControlNet IP-Adapter Methodology IP-Adapter의 문제점: CLIP encoder는 참조 이미지의 세부 사항을 포착하지 못한다. Cross-attention 만으로는 토큰 시퀀스를 세밀하게 제어하지 못한다. 본문의 개선점: 사전 훈련된 기성 face model을 사용하여 feature를 추출한다. 생성 이미지의 세밀한 제어를 위해 C..
Scalable Pre-training of Large Autoregressive Image Models (AIM) [Github] [arXiv](2024/01/16 version v1) Abstract Autoregressive objective를 통해 ViT를 크게 확장하여 downstream task에서 강력한 성능을 보여주는 대규모 비전 모델인 AIM(Autoregressive Image Model) 구축 Pre-training Dataset Common Crawl에서 Data Filtering Nework로 필터링된 12.8B text-image pair가 있는 DFN dataset에서 alignment score가 상위 15%인 DFN-2B dataset이 있다. LLM 사전 훈련의 일반적인 관행에서 착안하여 p = 0.8로 DFN-2B에서 샘플링하고 p = 0.2로 ImageNet-1K에서 이미지를 샘플링..
PALP: Prompt Aligned Personalization of Text-to-Image Models 본문에서 제안하는 prompt personalization 방법은 일일이 개인화해야 하기 때문에 별로 실용성 있는 기술은 아니다. [Project Page] [arXiv](2024/01/11 version v1) Abstract 단일 prompt에 대한 개인화를 통해 복잡한 prompt로부터 정확한 이미지를 생성할 수 있는 Prompt-Aligned Personalization (PALP) 제안 Prompt Alignment Method Diffusion model G: Overview: Personalization 모델 G의 self, cross-attention 계층을 LoRA를 통해 업데이트한다. Prompt-Aligned Score Sampling 모델에 의해 단일 step에서 추정된 표본 x̂0..
Delta Denoising Score (DDS) [Project Page] [Github] [arXiv](2023/04/14 version v1) Abstract Score Distillation Sampling을 응용하여 최소한의 수정으로 이미지를 편집할 수 있는 Delta Denoising Score (DDS) 소개 Delta Denoising Score (DDS) Score Distillation Sampling Editing with SDS 판다를 다람쥐로 바꾸기 위해 초기 이미지 z를 판다 이미지로 초기화하고 SDS를 수행했을 때 아래 그림과 같이 점점 흐려지며 세부 사항이 소실되는 것을 볼 수 있다. 우리의 목적은 text로 안내되는 방향을 δtext, 나머지 방향을 δbias라고 했을 때, 두 방향을 분리하여 δtext만 업데이트하는 것이..
Towards Conversational Diagnostic AI (AMIE) AI가 의사를 뛰어넘었다고 한다 ㄷㄷ [arXiv](2024/01/11 version v1) Nature article : Google AI는 인간 의사보다 더 나은 침상 매너를 갖추고 있으며 더 나은 진단을 제공합니다. Abstract Self-play 시뮬레이션 환경을 통해 의료 진단에 최적화된 AI system인 AMIE (Articulate Medical Intelligence Explorer) 제안 AMIE: An LLM based AI System for Diagnostic Dialogue Real-world Datasets for AMIE 미국 의사 면허 시험 객관식 스타일 문제 MedQA MultiMedBench의 QA 질문에 대해 전문가가 작성한 long-form Medical QA 의료..
Object-Centric Diffusion for Efficient Video Editing 배경 영역의 계산을 줄임 [arXiv](2024/01/11 version v1) Abstract 중요한 영역에 더 많은 계산을 할당하여 빠르게 비디오를 편집할 수 있는 Object-Centric Diffusion(OCD) 제안 Off-the-shelf acceleration FateZero 기반 Faster self-attention ToMe, ToMe for Stable Diffusion 더보기 Pairing token locations from inversion FateZero는 inversion으로 얻은 attention map에 의존하기 때문에 inversion과 sampling에서 토큰이 동일한 짝을 이루는 게 중요하다. Inversion 중에 토큰을 병합하고 sampling에서 동일한 짝을 사..
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing Inversion을 통해 얻은 attention map을 사용해 시간적 일관성 향상 [Project Page] [Github] [arXiv](2023/10/11 version v3) Abstract Inversion을 통해 zero-shot video editing을 수행하는 FateZero 제안 Methods Tune-A-Video 기반 Preliminary: Latent Diffusion and Inversion LDM DDIM Sampling: DDIM Inversion: FateZero Video Editing Inversion Attention Fusion Inversion noise를 직접 사용하면 많은 denoising step에 따른 오류 누적, 높은 cfg 가중치 때문에 프레임 불일치 발..
Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation Multi-reward 간에 Pareto 최적인 샘플만 훈련에 사용 [arXiv](2024/01/11 version v1) Abstract Text-to-Image generation을 위한 multi-reward Reinforcement Learning framework인 Parrot 소개. Pareto optimal selection을 사용하여 reward 간의 균형을 맞추기 때문에 Parrot이라는 이름을 붙였다. Preliminary 보상 모델 r의 목적 함수 J: 사전 훈련된 확산 모델 pθ에 대해 표기: Method Parrot Overview Parrot은 Prompt Expansion Network(PEN)와 T2I model로 구성된다. Batch-wise Pareto-optimal Se..