분류 전체보기 (540) 썸네일형 리스트형 An Edit Friendly DDPM Noise Space: Inversion and Manipulations (DDPM Inversion) [Project Page] [Github] [arXiv](2023/04/14 version v2) Abstract DDPM의 편집 친화적인 latent noise space를 추출하는 inversion 방법 제안 The DDPM noise space Diffusion Forward process: 다음과 같이 간단하게 표현할 수 있다. Backward process: zt는 랜덤 가우시안 노이즈다. 실제로 DDPM 논문에서 유연성을 위해 사용한다. Edit friendly inversion 애초에 DDPM의 noise space가 편집 친화적이지 않기 때문에 noise map을 대체하는 단순한 방법으로는 편집이 불가능하다. 주어진 이미지 x0의 구조를 '각인'하기 위해 다음과 같은 보조 시퀀스를 구성한다.. Zero Bubble Pipeline Parallelism [Github] [arXiv](2023/11/30 version v1) Abstract 역전파 분할, 자동 스케줄링, 동기화 우회를 통해 zero bubble 달성 Introduction Data parallelism, Tensor parallelism, Pipeline parallelism Data parallelism : 각 장치에서 각자의 데이터를 처리 Tensor parallelism : 한 레이어의 행렬 연산을 여러 장치로 나누어서 처리 Pipeline parallelism : 모델의 end-to-end를 일정한 stage로 나누고 하나의 stage를 하나의 장치가 처리 Pipeline parallelism(이하 PP)은 bubble이 적을수록 효율적이다. Pipeline bubble에 대한 연.. Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data MiDaS + Perturbation이 주입된 대규모 unlabeled data + Semantic feature loss 단순한 Encoder-Decoder 구조로 모든 이미지를 처리하는 depth foundation model [Project Page] [Github] [arXiv](2024/01/19 version v1) Abstract 기술 모듈을 추구하지 않고 어떠한 상황에서도 모든 이미지를 다루는 단순하면서도 강력한 depth foundation model을 구축하는 것을 목표로 한다. Depth Anything Learning Labeled Images Unleashing the Power of Unlabeled Images Semantic-Assisted Perception Labeled .. Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads 메두사 같은 병렬 헤드를 통한 빠른 생성 [Github] [arXiv](2024/01/19 version v1) 본 논문의 대략적인 맥락, 결과에 대해서는 Medusa Homepage에 잘 설명되어 있다. Homepage Tianle Cai*, Yuhong Li*, Zhengyang Geng, Hongwu Peng, Tri Dao (* Equal contribution) sites.google.com 참고: Speculative Decoding Key Components Medusa Heads Original head가 t번째 토큰을 예측할 때, k번째 medusa head는 t+k번째 토큰을 예측하도록 훈련된다. Medusa head는 이전 연구와 똑같이 잔차 연결이 있는 feedforward netw.. Fast Inference from Transformers via Speculative Decoding [arXiv](2023/05/18 version v2) Abstract 여러 개의 토큰을 병렬로 계산하여 더 빠르게 샘플링하는 Speculative Decoding 제안 Speculative Decoding 효율적인 모델 Mq가 토큰 시퀀스를 생성하고 목표 모델 Mp가 해당 시퀀스를 평가하여 토큰을 수용하거나 거부하고, 대안을 생성한다. 각 라인은 한 번의 decoding step이다. Standardized Sampling Argmax, top-k, nucleus, temperature 등 다양한 샘플링 설정이 있지만 본문에서는 생략하고 일반적인 경우만 가정. Speculative Sampling 준비물: 각 모델, 토큰 시퀀스 γ개의 예측 생성 Mp를 병렬로 실행하여 γ개의 예측을 각각 생성 q(x).. Truncation Sampling as Language Model Desmoothing (η-sampling) [arXiv](2022/10/27 version v1) Abstract 언어 모델에서 추출한 긴 텍스트 샘플은 품질이 좋지 않을 수 있다. 이 문제를 해결하기 위해 entropy에 따른 확률 임계값 이하로 단어를 잘라내는 η-sampling 소개 Introduction 언어 모델에서 고품질의 다양한 샘플을 생성하는 데 효과적인 방법 중 하나는 truncation sampling이다. 이는 각 단어를 생성할 때 확률이 낮은 일부 단어의 확률을 0으로 설정한다. Truncation의 원칙: 확률이 높은 단어는 잘리면 안 되고 분포의 모든 단어가 확률이 낮을 때는 나머지 단어에 비해 확률이 낮은 단어만 잘라야 한다. η-sampling: 절대 확률 임계값보다 작고 분포의 entropy에 따라 달라지는 확률 임.. Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution (LP-FT) [arXiv](2022/02/21 version v1) Abstract Linear Probing then full Fine-Tuning (LP-FT) 전략 소개 Introduction 사전 훈련된 feature extractor(맨 왼쪽)가 주어지면, 이를 작업에 활용하기 위해 head를 추가하여 전체 모델을 fine-tuning 하거나, head만 훈련하는 linear probing을 수행할 수 있다. Fine-tuning 시 ID(In-Distribution) 정확도는 높지만, OOD(Out-Of-Distribution) 정확도는 오히려 linear probing 보다 떨어진다. Theory: fine-tuning distorts pretrained features w*는 이상적인 모델의 분포를 의.. 논문 수정에 기여해버렸다 ㅎ Medusa 논문을 보고 있었는데 Homepage Tianle Cai*, Yuhong Li*, Zhengyang Geng, Hongwu Peng, Tri Dao (* Equal contribution) sites.google.com 이 Heads warmup 부분이 아무리 생각해도 이해가 안 되었다. First stage에서 backbone을 훈련하라고 나와있는데, 내가 이해가 안 돼서 참조 논문까지 다 봤다. 근데 참조 논문을 보고 내가 내린 결론은 backbone이 아니라 medusa head를 먼저 훈련해야 된다는 것이었다. 그래서 github에 직접 물어봤는데 한글버전 다음 버전에서 수정한다고 한다 ㅎ 뭔가 기분이 좋네... ㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎ Self-Rewarding Language Models [Github] [arXiv](2024/01/18 version v1) Abstract 언어 모델이 학습 중에 스스로 보상을 제공하도록 유도하는 LLM-as-a-Judge prompt를 통해 Self-Rewarding Language Model을 연구한다. Self-Rewarding Language Models Initialization 훈련 중에 사용되는 2가지 seed dataset: 사전 훈련된 모델에서 SFT(Supervised Fine-Tuning)를 수행하는 데 필요한, 인간이 작성한 IFT(Instruction Fine-Tuning) data 아래 그림과 같이 모델에게 응답의 품질을 평가하도록 요청하여 얻은 EFT(Evaluation Fine-Tuning) data Self-Instructi.. DiffusionGPT: LLM-Driven Text-to-Image Generation System LLM agent system을 통해 prompt에 적합한 확산 모델을 동적으로 선택하여 이미지 생성 [Project Page] [Github] [arXiv](2024/01/18 version v1) Abstract LLM을 통해 prompt를 분석하고 도메인별 전문가 확산 모델을 통합할 수 있는 시스템인 DiffusionGPT 제안 여기서 전문가 확산 모델: Civitai와 같은 개인화 모델들을 말함 Methodology Prompt Parse Tree-of-thought of Models Model Selection Execution of Generation Prompt Parse LLM이 prompt를 분석하여 확산 모델에 사용할 적절한 prompt를 생성한다. Prompt-based : "a do.. VMamba: Visual State Space Model [Github] [arXiv](2024/01/18 version v1) Abstract Cross-Scan Module (CSM)을 통해 시각 모델링이 가능한 VMamba 제안 Method Preliminaries 2D Selective Scan VMamba Model Preliminaries 필독!!! Mamba Mamba: Linear-Time Sequence Modeling with Selective State Spaces SSM에 선택성을 부여하고 하드웨어 최적화 [Github] [arXiv](2023/12/01 version v1) Abstract Transformer 기반 모델들이 긴 시퀀스 처리에서 보여주는 계산 비효율성을 해결하기 위해 Mamba라는 새로운 신경망 구 ostin.tistor.. VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models [Project Page] [Github] [arXiv](2024/01/17 version v1) Abstract 최근 몇몇 상업용 비디오 모델은 대규모의 잘 필터링된 고품질 비디오에 의존한다. 또한 저품질 WebVid-10M에서 모델을 훈련하는 많은 연구들은 고품질 비디오를 생성하기 어렵다. 본문에서는 저화질 비디오와 합성된 고품질 이미지를 활용하여 고품질 비디오를 생성할 수 있는 방법을 모색한다. 논문 한 줄 요약 : 고품질 비디오 데이터가 없을 때 저품질 비디오로 훈련된 T2V 모델에서 고품질 이미지를 통해 공간 모듈만 fine-tuning 하는 것이 가장 성능이 좋다. Method Spatial-temporal Connection Analyses Data-level Disentanglement o.. 이전 1 ··· 15 16 17 18 19 20 21 ··· 45 다음