분류 전체보기 (568) 썸네일형 리스트형 Emu Edit: Precise Image Editing via Recognition and Generation Tasks [Project Page] [arXiv](2023/11/16 version v1) Abstract 단일 모델로 다양한 task에 대해 instruction-based image editing이 가능한 Emu Edit 소개 Multi-Task Dataset for Image Editing Task Categories 3가지 주요 범주의 각 작업으로 구성됨. Instruction Generation In-context learning을 활용하여 작업별 예시 및 이미지 캡션을 제공하면 LLM이 편집 지침, 이상적인 출력 이미지에 대한 출력 캡션, 원본 이미지에 업데이트해야 하는 개체를 출력하도록 한다. Image Pairs Generation Prompt-to-Prompt, OCR, DINO, SAM 등의 다.. Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack [arXiv](2023/09/27 version v1) Abstract 수천 개의 고품질 이미지만으로 Quality-Tuning을 수행하여 매력적인 이미지를 생성할 수 있는 Emu 제안 Approach Latent Diffusion Architecture Pre-training High-Quality Alignment Data Quality-Tuning Latent Diffusion Architecture Latent Diffusion autoencoder의 채널을 확장하면 품질이 크게 향상된다. 또한 전처리로 fourier feature transformation을 적용하고 적대적 손실을 추가하면 더욱 향상된다. 또한 피라미터 수가 2.8B인 대규모 U-Net을 사용하고 CLIP ViT-L, T5-XX.. AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning [Project Page] [Github] [arXiv](2024/02/01 version v1) Abstract Image prior, motion prior 추출을 분리하는 학습 전략과 plug-and-play adapter를 효율적으로 적응하는 전략 제안 Consistency Models Consistency Models 논문 리뷰 : 매우 자세한, 간단 버전 일반적으로 잔차 연결을 통해 consistency model을 피라미터화 한다. xtn+1을 샘플링하고 ODE solver를 통해 xtnΦ를 계산하여 인접한 한 쌍의 데이터 포인트(xtnΦ, xtn+1)를 생성할 수 있고 데이터 포인트 쌍에 대한 일관성 모델의 출력의 차를 최소화하여 consistency distillation loss를 유도.. Improved Techniques for Training Consistency Models [Github] [arXiv](2023/10/22 version v1) Abstract Distillation 없이 consistency model을 직접 학습하는 consistency training의 개선된 기법 소개 Consistency Models Consistency Models 논문 리뷰 잔차 연결을 통해 CM을 피라미터화. σ = noise level CM loss: N이 작을수록 Δt가 크다. fθ = student network, fθ̄ = teacher network라고 한다. Teacher network는 EMA로 업데이트된다. 일관성 증류(CD)의 경우 확산 모델 s를 통해 Consistency Training (CT)의 경우 데이터 x와 가우시안 노이즈 z를 활용하여 훈련 후 가우.. 티스토리 메뉴 스크롤바 메뉴가 화면을 뚫었는데 스크롤바가 안생김;; CSS에서 gnb의 height를 줄이니까 생겼다. 아마 넘친 걸로 인식? 이 안돼서 그런 듯? 적당히 100% → 70%로 수정하였다. YOLO-World: Real-Time Open-Vocabulary Object Detection [Project Page] [Github] [arXiv](2024/02/02 version v2) Abstract 빠르고 정확하게 open-vocabulary detection이 가능한 YOLO 기반 모델인 YOLO-World 제안 [YOLO v1 ~ v7 총정리] [YOLO v8] Method Model Architecture Re-parameterizable Vision-Language PAN Pre-training Schemes Pre-training Formulation: Region-Text Pairs 전통적인 object detection에서는 instance annotation {box B, class c}를 통해 훈련된다. 본문의 annotation은 {B, text t}이며, YOLO-W.. TOOD: Task-aligned One-stage Object Detection [Project Page] [Github] [arXiv](2021/08/28 version v3) Abstract One-stage object detection에서 classification과 localization을 명시적으로 정렬하는 새로운 정렬 헤드 T-Head와 학습 방법인 Task Alignment Learning 제안 Task-aligned One-stage Object Detection TOOD는 1-stage dectection에 보편적인 backbone-FPN-head의 구조를 가진다. Task-aligned Head Task Alignment Learning Task-aligned Head T-Head는 2개의 Task-aligned predictor가 있는 간단한 feature ex.. Transfer Learning for Text Diffusion Models (AR2Diff) [arXiv](2024/01/30 version v1) Introduction Text Diffusion과 AR language model 비교 고전적인 AR 방법의 관성에서 오는 text diffusion model의 진입 장벽을 낮추기 위해 사전 훈련된 AR 모델을 확산 모델로 변환하는 AR2Diff 방법을 조사 구글 딥마인드 논문이라 기대했는데 별 내용은 없어요. Experiments Diffusion implementation 표준 transformer의 사전 훈련된 AR model checkpoint에서 SUNDAE의 훈련 방법을 따르며 L(1:2) loss를 사용한다. 이러한 방법을 AR2Diff 라고 함. 추론 시 저온 샘플링(τ = 0.2) 활용, N(=8) 개의 샘플을 병렬로 디코딩하고 .. Step-unrolled Denoising Autoencoders for Text Generation (SUNDAE) [Github] [arXiv](2022/04/19 version v3, 2021 v1) 이거 보고 보면 이해 더 잘될 듯? Mask-Predict, SMART Abstract Unrolled denoising을 통해 non-AR 텍스트 생성이 가능한 SUNDAE(Step-unrolled Denoising Autoencoder) 순대 아니고 미국에서 일요일에만 팔던 아이스크림 '선데이' 임 Method Corruption function Training with Unrolled Denoising Sampling Target Length Prediction Corruption function 예시: Training with Unrolled Denoising SMART 처럼 2단계 이상의 다단계 corrupt.. Semi-Autoregressive Training Improves Mask-Predict Decoding (SMART) [arXiv](2020/01/23 version v1) Abstract Mask-Predict의 반복 과정을 개선한 SMART 제안 Semi-Autoregressive Training 필독!!! Mask-Predict Mask-Predict: Parallel Decoding of Conditional Masked Language Models [Github] [arXiv](2019/09/04 version v2) Abstract Masked token을 병렬로 디코딩하여 텍스트 생성 Conditional Masked Language Models X, Yobs가 주어지면 Ymask에 속한 토큰들의 개별 확률을 예측해야 한다. Architecture Causal ma ostin.tistory.com Mask-.. Mask-Predict: Parallel Decoding of Conditional Masked Language Models [Github] [arXiv](2019/09/04 version v2) Abstract Masked token을 병렬로 디코딩하여 텍스트 생성 Conditional Masked Language Models X, Yobs가 주어지면 Ymask에 속한 토큰들의 개별 확률을 예측해야 한다. Architecture Causal mask를 제거한 양방향 transformer. Training Objective Ymask에 대한 cross-entropy. Predicting Target Sequence Length 전체 시퀀스를 병렬로 예측하기 때문에 AR 모델과 같이 동적으로 시퀀스의 끝을 결정할 수 없다. BERT의 cls token과 비슷하게 length token을 입력하고 목표 시퀀스의 길이 N을 예측하도.. Constitutional DPO Constitutional DPO in Weaver: Foundation Models for Creative Writing Instruction Backtranslation 사람이 쓴 고품질의 stylish한 text에 weaver를 조정하기 위해 self-instruction 대신 instruction backtranslation을 수행. 더보기 각 subdomain-task 쌍에 대해 instruction-response 쌍을 작성하는 방법에 대한 5가지 사례에 주석을 단다. (다듬기의 경우 범위를 선택하고 문구나 구조를 수정하여 나쁘게 만들기) GPT-4에 few-shot으로 각 사례와 주석, 주석 처리의 근거를 제공하고 Chain-of-thought (CoT) 추론을 통해 주석 프로세스와 inst.. 이전 1 ··· 15 16 17 18 19 20 21 ··· 48 다음