본문 바로가기

전체 글

(582)

Deep Flow-Guided Video Inpainting Optical flow를 통한 video inpainting 방법 [Project Page] [arXiv] [Github] Abstract Deep Flow Completion network를 이용한 flow-guided video inpainting Introduction 인페인팅을 위해 RGB 픽셀을 채우는 대신 flow 기반 접근 방법 제시. 영상의 대부분의 개체는 추적 가능한 동작을 가지므로 시간적 일관성이 자연스럽게 유지됨. Optical flow를 채우기 위해 DFC-Net(Deep Flow Completion Network) 설계. Coarse-to-fine refinement: 3개의 하위 네트워크(DFC-S)를 쌓아 단계적으로 복구 Temporal coherence maintenance:..

Generative Image Inpainting with Contextual Attention Contextual attention으로 image inpainting 개선 [arXiv] [Github] Abstract 먼 위치에서 정보를 빌리거나 복사하는 데 있어서 convolution의 비효율성 때문에 inpainting 작업에서 종종 왜곡된 구조나 흐릿한 질감이 생성된다. 본 논문에서는 주변 feature를 명시적으로 참조할 수 있는 생성 모델 기반 접근 방식을 제안한다. Introduction CNN 기반 방법은 boundary artifact, distorted structure, blurry texture를 생성하는 경우가 많음. 이는 먼 거리의 픽셀 간의 모델링을 하는 데에 있어서 CNN의 비효율성에 기인함. 일단 재구성 손실로 학습된 CNN으로 처리한 뒤 contextual atten..

FuseFormer: Fusing Fine-Grained Information in Transformers for Video Inpainting Video inpainting을 위한 soft split, soft composition [arXiv] [Github] Abstract Soft Split 및 Soft Composition 작업을 기반으로 하는 video inpainting 용 Transformer 모델인 FuseFormer 제안 Introduction Vision Transformer(ViT) baseline + 여러 프레임에서 작동하도록 수정 고해상도 프레임들로 인한 계산 부담 완화를 위해 transformer block 전후에 가벼운 convolution 사용 Transformer의 패치 단위 연산으로 인해 sub-token level feature 간의 직접적인 상호작용이 부족하다. 따라서 이를 해결하기 위해 SS(Soft Spl..

수학 테일러 급수 테일러 급수의 이해와 활용 (Taylor series) 테일러 급수(Taylor series)에 대한 내용은 이미 인터넷에 좋은 글들이 많습니다. 그럼에도 이렇게 다시 글을 쓰는 이유는 스스로도 애매한 부분이 많기 때문입니다. 그래서 공부하는 셈치고 관련 darkpgmr.tistory.com 헤시안 행렬 Hessian matrix(헤시안 행렬) · Seongkyun Han's blog Hessian matrix(헤시안 행렬) 18 Mar 2019 | Hessian matrix 헤시안 행렬 Hessian matrix 어떠한 다변수 함수 $f(x_{1}, x_{2}, …, x_{n})$ 에 대하여 $f$ 의 Hessian matrix는 아래와 같다. Hessian matrix는 함수의 이차미분(..

Efficient Streaming Language Models with Attention Sinks (StreamingLLM) Attentoin sink를 이용해 context를 확장하면서 안정성 유지 [arXiv] [Github] Abstract 초기 토큰의 Key, Value를 유지하면 window attention 성능이 크게 회복되는 attention sink 현상 관찰. 유한 길이의 LLM을 fine-tuning 없이 무한 길이로 일반화하는 StreamingLLM 소개. Introduction (a) 모든 KV(key, value) 캐싱: 계산 비용 부담, 긴 시퀀스 처리 못함. (b) 최신 토큰의 KV만 캐싱: 계산 효율적이지만 긴 시퀀스에서 성능이 급격히 저하됨. (c) 생성된 각 토큰에 대해 최근 토큰의 KV 상태를 다시 빌드: 성능은 좋지만 2차 계산으로 인해 실용적이지 않음. 연구진은 attention scor..

Language Model 자료 모음 LLaMA [리뷰] Meta AI의 Small Gaint Model: LLaMA(Large Language Model Meta AI) ChatGPT의 열풍으로 인해 대중들은 OpenAI와 MS가 Generative AI의 핵심기업으로 인식하는 착시 현상을 겪고 있다. 하지만 최근까지 AI 발전에 가장 많이 공헌한 기업으로 Google과 Meta을 꼽을 수 있다. moon-walker.medium.com LIMA [리뷰] Meta AI의 논문 LIMA(Less Is More for Alignment):결국 LLM의 Pre-training이 가장 중요하다? 최근 Meta AI는 CMU, USC, Tel Aviv Univ.의 researcher들과 함께 “LIMA: Less Is More for Alignme..

FreeU: Free Lunch in Diffusion U-Net 저주파수, 고주파수 feature 간의 균형 조절 [Project Page] [Github] [arXiv] Abstract U-Net에 대한 분석을 통해 추가 교육이나 fine-tuning 없이 품질을 향상하는 방법인 FreeU 제안 Introduction Denoising process에서 저주파수 구성요소는 거의 바뀌지 않지만, 고주파수 구성요소는 노이즈에 민감하며, 급격히 변함. 연구진의 조사에 따르면 U-Net backbone은 주로 denoising을 담당, skip connection은 세분화된 의미 정보를 전파하여 디코더 모듈에 고주파 feature를 도입함. 그러나 이러한 전파가 denoising을 방해할 수 있고, 다음과 같은 비정상적인 세부정보가 생성될 수 있음. 추론 단계에서 back..

SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis Stable diffusion의 개선 버전 [Github] [arXiv] (본 글은 요약본입니다. 자세한 리뷰) SDXL 아키텍처 향상(3배 더 큰 U-Net backbone) 추가 컨디셔닝 오토인코더 향상 다단계 학습 Refiner Improving Stable Diffusion Architecture & Scale 아키텍처 구성이 달라졌다.(SD, SDXL 아키텍처 분석) 두 개의 텍스트 인코더를 같이 사용, 풀링된 텍스트 인코딩을 추가로 컨디셔닝 Micro-Conditioning 학습 데이터셋의 rescaling 전 원래 사이즈 csize를 컨디셔닝. 추론 시 겉보기 해상도 조절 가능 학습 데이터 로드 시 데이터가 crop 되었다면 crop 좌표 ccrop을 컨디셔닝. ccrop = (0,0)으로 ..

Stable Diffusion, SDXL U-Net Architecture 살펴보기 먼저 stable diffusion 하위 모듈들의 순서가 제대로 나와있지 않아서 직접 찾아봄. conv_in down_blocks: (CrossAttnDownBlock2D: ResnetBlock2D Transformer2DModel ResnetBlock2D Transformer2DModel Downsample2D ) x 3 DownBlock2D: (ResnetBlock2D) x 2 mid_blocks: ResnetBlock2D Transformer2DModel ResnetBlock2D up_blocks: UpBlock2D: (ResnetBlock2D) x 3 Upsample2D (CrossAttnUpBlock2D: (ResnetBlock2D Transformer2DModel) x 3 Upsample2D)..

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning Text-to-image 모델에 모듈을 추가하여 비디오 생성 Project Page Github arXiv Abstract Motion modeling module을 통해 T2I 모델에서 애니메이션을 생성하는 AnimateDiff 제안 Personalized Animation 다음 그림과 같이 개인화된 T2I 모델에 바로 삽입하여 사용할 수 있는 모듈을 목표로 한다. Motion Modeling Module Network Inflation 프레임 시간축이 추가된 5D(b*c*f*h*w) 텐서를 처리하기 위해 video diffusion model과 같이 원본 U-Net의 2D convolution과 attention layer를 Pseudo-3D layer로 교체하고 공간축을 따라 작동하도록 한다. MM..

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation Reflow, 증류를 통한 초고속 1단계 생성 Github arXiv Abstract Rectified flow를 통해 확산 모델을 초고속 1단계 모델로 전환하기 위한 text-conditioned pipeline인 InstaFlow 제안. 0.1초 이내에 이미지 생성 ㄷㄷ Methods Rectified Flow and Reflow Rectified flow(RF)는 두 분포 사이의 전송 매핑을 학습하기 위한 접근 방식을 제공한다. 신경망을 통해 v를 매개변수화 한다. 일반적인 확률 흐름 ODE는 다음과 같은 형태인데, RF의 저자는 더 간단한 형태를 제안했다. Straight Flows Yield Fast Generation ODE의 궤적을 직선화하는 것은 추론 비용을 줄이기 위한 필수적인 방법임. ..

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models LLM의 context 크기를 확장하는 효율적인 fine-tuning 방법 Github arXiv Abstract 제한된 계산 비용으로 LLM의 context 크기를 확장하는 효율적인 fine-tuning 방식인 LongLoRA 제안 Introduction LoRA는 row-rank update를 사용하여 전체 fine-tuning을 근사화한다. 이와 비슷하게 연구진은 short attention으로 long context에 근사할 수 있다는 것을 발견했고, 이 통찰에 따라 효율적인 shift short attention(S2-Attn) 제안. 그리고 S2 attn을 통해 긴 context를 효율적으로 fine-tuning 할 수 있는 LongLoRA까지. LongLoRA Shift Short Atten..

이전 1 ··· 31 32 33 34 35 36 37 ··· 49 다음

티스토리툴바