논문 리뷰 (452) 썸네일형 리스트형 Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs (RPG) [Github] [arXiv](2024/01/22 version v1) Abstract 복잡한 이미지 생성을 LLM을 통해 간단한 하위 영역 생성으로 분해하는 Recaptioning, Planning, and Generating (RPG) Keyword: Multimodal Recaptioning, Chain-of-Thought Planning, Complementary Regional Diffusion Method Text-to-image Generation Prompt Recaptioning User prompt yc에서 핵심 문구를 식별하고 충실도를 향상하기 위해 세부 정보를 보완한다. CoT Planning for Region Division LLM의 Chain-of-thought (CoT) 추론.. LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models (LMD) [Project Page] [Github] [arXiv](2023/10/10 version v2) Abstract LLM이 layout을 생성하여 diffusion model을 안내하는 LLM-grounded Diffusion (LMD) 제안 LLM-grounded Diffusion LLM-based Layout Generation Layout representation 레이아웃 표현은 bounding box와 caption으로 구성된다. Prompting In-context learning 레이아웃 표현을 명확히 하기 위해 작업 설명 후 수동으로 선별한 예제를 제공한다. 2가지 원칙: 각 인스턴스는 단일 bbox로 표시된다. E.g. '사과 4개'의 경우 각 사과가 각기 다른 bbox를 가진다. For.. EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [Project Page] [arXiv](2024/01/22 version v1) Abstract Stable Diffusion의 의미론적 지식을 활용하여 추가 학습 없이 segmentation map을 생성할 수 있는 EmerDiff 제안 Methods Constructing Low-Resolution Segmentation Maps 이후 언급되는 모든 과정 동안 완벽한 재구성을 위하여 DDPM Inversion을 사용한다. U-Net Upward blocks의 첫 번째 attention layer에서 query vector를 추출한다. 이 feature는 텍스트와 직접 상호작용하며 의미론적으로 인식되어야 한다. K-평균을 적용하여 low-resolution segmentation mask를 얻는다. .. An Edit Friendly DDPM Noise Space: Inversion and Manipulations (DDPM Inversion) [Project Page] [Github] [arXiv](2023/04/14 version v2) Abstract DDPM의 편집 친화적인 latent noise space를 추출하는 inversion 방법 제안 The DDPM noise space Diffusion Forward process: 다음과 같이 간단하게 표현할 수 있다. Backward process: zt는 랜덤 가우시안 노이즈다. 실제로 DDPM 논문에서 유연성을 위해 사용한다. Edit friendly inversion 애초에 DDPM의 noise space가 편집 친화적이지 않기 때문에 noise map을 대체하는 단순한 방법으로는 편집이 불가능하다. 주어진 이미지 x0의 구조를 '각인'하기 위해 다음과 같은 보조 시퀀스를 구성한다.. Zero Bubble Pipeline Parallelism [Github] [arXiv](2023/11/30 version v1) Abstract 역전파 분할, 자동 스케줄링, 동기화 우회를 통해 zero bubble 달성 Introduction Data parallelism, Tensor parallelism, Pipeline parallelism Data parallelism : 각 장치에서 각자의 데이터를 처리 Tensor parallelism : 한 레이어의 행렬 연산을 여러 장치로 나누어서 처리 Pipeline parallelism : 모델의 end-to-end를 일정한 stage로 나누고 하나의 stage를 하나의 장치가 처리 Pipeline parallelism(이하 PP)은 bubble이 적을수록 효율적이다. Pipeline bubble에 대한 연.. Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data MiDaS + Perturbation이 주입된 대규모 unlabeled data + Semantic feature loss 단순한 Encoder-Decoder 구조로 모든 이미지를 처리하는 depth foundation model [Project Page] [Github] [arXiv](2024/01/19 version v1) Abstract 기술 모듈을 추구하지 않고 어떠한 상황에서도 모든 이미지를 다루는 단순하면서도 강력한 depth foundation model을 구축하는 것을 목표로 한다. Depth Anything Learning Labeled Images Unleashing the Power of Unlabeled Images Semantic-Assisted Perception Labeled .. Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads 메두사 같은 병렬 헤드를 통한 빠른 생성 [Github] [arXiv](2024/01/19 version v1) 본 논문의 대략적인 맥락, 결과에 대해서는 Medusa Homepage에 잘 설명되어 있다. Homepage Tianle Cai*, Yuhong Li*, Zhengyang Geng, Hongwu Peng, Tri Dao (* Equal contribution) sites.google.com 참고: Speculative Decoding Key Components Medusa Heads Original head가 t번째 토큰을 예측할 때, k번째 medusa head는 t+k번째 토큰을 예측하도록 훈련된다. Medusa head는 이전 연구와 똑같이 잔차 연결이 있는 feedforward netw.. Fast Inference from Transformers via Speculative Decoding [arXiv](2023/05/18 version v2) Abstract 여러 개의 토큰을 병렬로 계산하여 더 빠르게 샘플링하는 Speculative Decoding 제안 Speculative Decoding 효율적인 모델 Mq가 토큰 시퀀스를 생성하고 목표 모델 Mp가 해당 시퀀스를 평가하여 토큰을 수용하거나 거부하고, 대안을 생성한다. 각 라인은 한 번의 decoding step이다. Standardized Sampling Argmax, top-k, nucleus, temperature 등 다양한 샘플링 설정이 있지만 본문에서는 생략하고 일반적인 경우만 가정. Speculative Sampling 준비물: 각 모델, 토큰 시퀀스 γ개의 예측 생성 Mp를 병렬로 실행하여 γ개의 예측을 각각 생성 q(x).. Truncation Sampling as Language Model Desmoothing (η-sampling) [arXiv](2022/10/27 version v1) Abstract 언어 모델에서 추출한 긴 텍스트 샘플은 품질이 좋지 않을 수 있다. 이 문제를 해결하기 위해 entropy에 따른 확률 임계값 이하로 단어를 잘라내는 η-sampling 소개 Introduction 언어 모델에서 고품질의 다양한 샘플을 생성하는 데 효과적인 방법 중 하나는 truncation sampling이다. 이는 각 단어를 생성할 때 확률이 낮은 일부 단어의 확률을 0으로 설정한다. Truncation의 원칙: 확률이 높은 단어는 잘리면 안 되고 분포의 모든 단어가 확률이 낮을 때는 나머지 단어에 비해 확률이 낮은 단어만 잘라야 한다. η-sampling: 절대 확률 임계값보다 작고 분포의 entropy에 따라 달라지는 확률 임.. Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution (LP-FT) [arXiv](2022/02/21 version v1) Abstract Linear Probing then full Fine-Tuning (LP-FT) 전략 소개 Introduction 사전 훈련된 feature extractor(맨 왼쪽)가 주어지면, 이를 작업에 활용하기 위해 head를 추가하여 전체 모델을 fine-tuning 하거나, head만 훈련하는 linear probing을 수행할 수 있다. Fine-tuning 시 ID(In-Distribution) 정확도는 높지만, OOD(Out-Of-Distribution) 정확도는 오히려 linear probing 보다 떨어진다. Theory: fine-tuning distorts pretrained features w*는 이상적인 모델의 분포를 의.. Self-Rewarding Language Models [Github] [arXiv](2024/01/18 version v1) Abstract 언어 모델이 학습 중에 스스로 보상을 제공하도록 유도하는 LLM-as-a-Judge prompt를 통해 Self-Rewarding Language Model을 연구한다. Self-Rewarding Language Models Initialization 훈련 중에 사용되는 2가지 seed dataset: 사전 훈련된 모델에서 SFT(Supervised Fine-Tuning)를 수행하는 데 필요한, 인간이 작성한 IFT(Instruction Fine-Tuning) data 아래 그림과 같이 모델에게 응답의 품질을 평가하도록 요청하여 얻은 EFT(Evaluation Fine-Tuning) data Self-Instructi.. DiffusionGPT: LLM-Driven Text-to-Image Generation System LLM agent system을 통해 prompt에 적합한 확산 모델을 동적으로 선택하여 이미지 생성 [Project Page] [Github] [arXiv](2024/01/18 version v1) Abstract LLM을 통해 prompt를 분석하고 도메인별 전문가 확산 모델을 통합할 수 있는 시스템인 DiffusionGPT 제안 여기서 전문가 확산 모델: Civitai와 같은 개인화 모델들을 말함 Methodology Prompt Parse Tree-of-thought of Models Model Selection Execution of Generation Prompt Parse LLM이 prompt를 분석하여 확산 모델에 사용할 적절한 prompt를 생성한다. Prompt-based : "a do.. 이전 1 ··· 12 13 14 15 16 17 18 ··· 38 다음