본문 바로가기

전체 글

(528)
AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Multi-agent 간의 대화를 중심으로 한 conversation programming으로 LLM application 구축 [Github] [arXiv] Abstract서로 대화할 수 있는 여러 에이전트를 통해 LLM application을 구축할 수 있는 open-source framework인 AutoGen Introduction개발자는 AutoGen을 통해 다양한 역할을 가진 에이전트를 쉽고 빠르게 생성할 수 있다. 또한 쉽게 사용자 정의 동작을 확장할 수 있고, 모든 에이전트는 대화가 가능하게 만들어졌다. 모듈식으로 LLM의 기능을 확장 가능. AutoGen의 근본 통찰은 복잡한 LLM application workflow를 다중 에이전트 대화로 단순화하고 통합하는 것이다. 따라서 에이전트 ..
ProPainter: Improving Propagation and Transformer for Video Inpainting Flow-guided video inpainting 방법론 총집합 + dual-domain propagation + mask-guided sparse transformer [Project Page] [Github] [arXiv]AbstractVideo Inpainting 프레임워크 PropainterDual-domain propagationMask-guided sparse video Transformer Introduction이미지 기반 전파와 feature 기반 전파의 장점을 결합하기 위한 dual-domain propagationCPU가 아닌 GPU에서 전역 이미지 전파 수행Flow-based deformable alignment를 활용한 향상된 feature 전파효율적인 네트워크를 통해 SOTA보다..
Flow-Guided Transformer for Video Inpainting (FGT) 시간적, 공간적 transformer를 이용한 flow-guided video inpainting [Github] [arXiv], [Supplementary] Abstract Flow-guided Transformer 제안 Introduction FGT는 2 part로 구성: Flow completion network Flow-guided transformer Flow completion network : 시공간적으로 분리된 P3D block을 U-Net에 통합. Edge loss 도입. Flow-guided transformer : Spatial, temporal attention 분리 Optical flow는 spatial transformer에서만 사용 Temporal attention은 시공간적으..
Towards An End-to-End Framework for Flow-Guided Video Inpainting (E2FGVI) Flow-based end-to-end video inpainting framework [arXiv] [Github] [Video Demo] Abstract 3가지 학습 가능한 모듈을 통한 End-to-End framework for Flow-Guided Video Inpainting( E2FGVI ) Introduction 일반적인 flow-based video inpainting 작업은 flow completion, pixel propagation, content hallucination 단계로 나뉘어 있다. 지금까지의 flow-based method들은 이전 단계의 오류를 바로잡을 방법이 없어 오류가 누적되고 GPU 가속을 받을 수 없는 수동 작업이 많이 포함돼있어 비효율적임. E2FGVI는 각 단..
Flow-edge Guided Video Completion (FGVC) Flow edge를 먼저 완성, non-local flow connection 도입 [Project Page] [arXiv] [Github] Abstract 새로운 flow-based video completion algorithm 제시 모션의 가장자리를 먼저 완성하여 flow completion을 안내 시간적으로 멀리 떨어진 프레임에 non-local flow connection을 도입하여 비디오 콘텐츠 전파 Introduction 현재까지 inpainting에서 가장 성공적인 방법은 flow 기반 모델. 하지만 기존 모델은 날카로운 가장자리를 잘 합성하지 못함. 기존 모델의 또 다른 한계는 시간적으로 먼 프레임에 대한 연결이 약하고 색상을 직접 전파하여 현실에서의 다양한 색상 노이즈(노출, 그림자, ..
Deep Flow-Guided Video Inpainting Optical flow를 통한 video inpainting 방법 [Project Page] [arXiv] [Github] Abstract Deep Flow Completion network를 이용한 flow-guided video inpainting Introduction 인페인팅을 위해 RGB 픽셀을 채우는 대신 flow 기반 접근 방법 제시. 영상의 대부분의 개체는 추적 가능한 동작을 가지므로 시간적 일관성이 자연스럽게 유지됨. Optical flow를 채우기 위해 DFC-Net(Deep Flow Completion Network) 설계. Coarse-to-fine refinement: 3개의 하위 네트워크(DFC-S)를 쌓아 단계적으로 복구 Temporal coherence maintenance:..
Generative Image Inpainting with Contextual Attention Contextual attention으로 image inpainting 개선 [arXiv] [Github] Abstract 먼 위치에서 정보를 빌리거나 복사하는 데 있어서 convolution의 비효율성 때문에 inpainting 작업에서 종종 왜곡된 구조나 흐릿한 질감이 생성된다. 본 논문에서는 주변 feature를 명시적으로 참조할 수 있는 생성 모델 기반 접근 방식을 제안한다. Introduction CNN 기반 방법은 boundary artifact, distorted structure, blurry texture를 생성하는 경우가 많음. 이는 먼 거리의 픽셀 간의 모델링을 하는 데에 있어서 CNN의 비효율성에 기인함. 일단 재구성 손실로 학습된 CNN으로 처리한 뒤 contextual atten..
FuseFormer: Fusing Fine-Grained Information in Transformers for Video Inpainting Video inpainting을 위한 soft split, soft composition [arXiv] [Github] Abstract Soft Split 및 Soft Composition 작업을 기반으로 하는 video inpainting 용 Transformer 모델인 FuseFormer 제안 Introduction Vision Transformer(ViT) baseline + 여러 프레임에서 작동하도록 수정 고해상도 프레임들로 인한 계산 부담 완화를 위해 transformer block 전후에 가벼운 convolution 사용 Transformer의 패치 단위 연산으로 인해 sub-token level feature 간의 직접적인 상호작용이 부족하다. 따라서 이를 해결하기 위해 SS(Soft Spl..
수학 테일러 급수 테일러 급수의 이해와 활용 (Taylor series) 테일러 급수(Taylor series)에 대한 내용은 이미 인터넷에 좋은 글들이 많습니다. 그럼에도 이렇게 다시 글을 쓰는 이유는 스스로도 애매한 부분이 많기 때문입니다. 그래서 공부하는 셈치고 관련 darkpgmr.tistory.com 헤시안 행렬 Hessian matrix(헤시안 행렬) · Seongkyun Han's blog Hessian matrix(헤시안 행렬) 18 Mar 2019 | Hessian matrix 헤시안 행렬 Hessian matrix 어떠한 다변수 함수 $f(x_{1}, x_{2}, …, x_{n})$ 에 대하여 $f$ 의 Hessian matrix는 아래와 같다. Hessian matrix는 함수의 이차미분(..
Efficient Streaming Language Models with Attention Sinks (StreamingLLM) Attentoin sink를 이용해 context를 확장하면서 안정성 유지 [arXiv] [Github] Abstract 초기 토큰의 Key, Value를 유지하면 window attention 성능이 크게 회복되는 attention sink 현상 관찰. 유한 길이의 LLM을 fine-tuning 없이 무한 길이로 일반화하는 StreamingLLM 소개. Introduction (a) 모든 KV(key, value) 캐싱: 계산 비용 부담, 긴 시퀀스 처리 못함. (b) 최신 토큰의 KV만 캐싱: 계산 효율적이지만 긴 시퀀스에서 성능이 급격히 저하됨. (c) 생성된 각 토큰에 대해 최근 토큰의 KV 상태를 다시 빌드: 성능은 좋지만 2차 계산으로 인해 실용적이지 않음. 연구진은 attention scor..
Language Model 자료 모음 LLaMA [리뷰] Meta AI의 Small Gaint Model: LLaMA(Large Language Model Meta AI) ChatGPT의 열풍으로 인해 대중들은 OpenAI와 MS가 Generative AI의 핵심기업으로 인식하는 착시 현상을 겪고 있다. 하지만 최근까지 AI 발전에 가장 많이 공헌한 기업으로 Google과 Meta을 꼽을 수 있다. moon-walker.medium.com LIMA [리뷰] Meta AI의 논문 LIMA(Less Is More for Alignment):결국 LLM의 Pre-training이 가장 중요하다? 최근 Meta AI는 CMU, USC, Tel Aviv Univ.의 researcher들과 함께 “LIMA: Less Is More for Alignme..
FreeU: Free Lunch in Diffusion U-Net 저주파수, 고주파수 feature 간의 균형 조절 [Project Page] [Github] [arXiv] Abstract U-Net에 대한 분석을 통해 추가 교육이나 fine-tuning 없이 품질을 향상하는 방법인 FreeU 제안 Introduction Denoising process에서 저주파수 구성요소는 거의 바뀌지 않지만, 고주파수 구성요소는 노이즈에 민감하며, 급격히 변함. 연구진의 조사에 따르면 U-Net backbone은 주로 denoising을 담당, skip connection은 세분화된 의미 정보를 전파하여 디코더 모듈에 고주파 feature를 도입함. 그러나 이러한 전파가 denoising을 방해할 수 있고, 다음과 같은 비정상적인 세부정보가 생성될 수 있음. 추론 단계에서 back..