본문 바로가기

논문 리뷰

(451)
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning [Project Page] [Github] [arXiv](2024/02/01 version v1) Abstract Image prior, motion prior 추출을 분리하는 학습 전략과 plug-and-play adapter를 효율적으로 적응하는 전략 제안 Consistency Models Consistency Models 논문 리뷰 : 매우 자세한, 간단 버전 일반적으로 잔차 연결을 통해 consistency model을 피라미터화 한다. xtn+1을 샘플링하고 ODE solver를 통해 xtnΦ를 계산하여 인접한 한 쌍의 데이터 포인트(xtnΦ, xtn+1)를 생성할 수 있고 데이터 포인트 쌍에 대한 일관성 모델의 출력의 차를 최소화하여 consistency distillation loss를 유도..
Improved Techniques for Training Consistency Models [Github] [arXiv](2023/10/22 version v1) Abstract Distillation 없이 consistency model을 직접 학습하는 consistency training의 개선된 기법 소개 Consistency Models Consistency Models 논문 리뷰 잔차 연결을 통해 CM을 피라미터화. σ = noise level CM loss: N이 작을수록 Δt가 크다. fθ = student network, fθ̄ = teacher network라고 한다. Teacher network는 EMA로 업데이트된다. 일관성 증류(CD)의 경우 확산 모델 s를 통해 Consistency Training (CT)의 경우 데이터 x와 가우시안 노이즈 z를 활용하여 훈련 후 가우..
YOLO-World: Real-Time Open-Vocabulary Object Detection [Project Page] [Github] [arXiv](2024/02/02 version v2) Abstract 빠르고 정확하게 open-vocabulary detection이 가능한 YOLO 기반 모델인 YOLO-World 제안 [YOLO v1 ~ v7 총정리] [YOLO v8] Method Model Architecture Re-parameterizable Vision-Language PAN Pre-training Schemes Pre-training Formulation: Region-Text Pairs 전통적인 object detection에서는 instance annotation {box B, class c}를 통해 훈련된다. 본문의 annotation은 {B, text t}이며, YOLO-W..
TOOD: Task-aligned One-stage Object Detection [Project Page] [Github] [arXiv](2021/08/28 version v3) Abstract One-stage object detection에서 classification과 localization을 명시적으로 정렬하는 새로운 정렬 헤드 T-Head와 학습 방법인 Task Alignment Learning 제안 Task-aligned One-stage Object Detection TOOD는 1-stage dectection에 보편적인 backbone-FPN-head의 구조를 가진다. Task-aligned Head Task Alignment Learning Task-aligned Head T-Head는 2개의 Task-aligned predictor가 있는 간단한 feature ex..
Transfer Learning for Text Diffusion Models (AR2Diff) [arXiv](2024/01/30 version v1) Introduction Text Diffusion과 AR language model 비교 고전적인 AR 방법의 관성에서 오는 text diffusion model의 진입 장벽을 낮추기 위해 사전 훈련된 AR 모델을 확산 모델로 변환하는 AR2Diff 방법을 조사 구글 딥마인드 논문이라 기대했는데 별 내용은 없어요. Experiments Diffusion implementation 표준 transformer의 사전 훈련된 AR model checkpoint에서 SUNDAE의 훈련 방법을 따르며 L(1:2) loss를 사용한다. 이러한 방법을 AR2Diff 라고 함. 추론 시 저온 샘플링(τ = 0.2) 활용, N(=8) 개의 샘플을 병렬로 디코딩하고 ..
Step-unrolled Denoising Autoencoders for Text Generation (SUNDAE) [Github] [arXiv](2022/04/19 version v3, 2021 v1) 이거 보고 보면 이해 더 잘될 듯? Mask-Predict, SMART Abstract Unrolled denoising을 통해 non-AR 텍스트 생성이 가능한 SUNDAE(Step-unrolled Denoising Autoencoder) 순대 아니고 미국에서 일요일에만 팔던 아이스크림 '선데이' 임 Method Corruption function Training with Unrolled Denoising Sampling Target Length Prediction Corruption function 예시: Training with Unrolled Denoising SMART 처럼 2단계 이상의 다단계 corrupt..
Semi-Autoregressive Training Improves Mask-Predict Decoding (SMART) [arXiv](2020/01/23 version v1) Abstract Mask-Predict의 반복 과정을 개선한 SMART 제안 Semi-Autoregressive Training 필독!!! Mask-Predict Mask-Predict: Parallel Decoding of Conditional Masked Language Models [Github] [arXiv](2019/09/04 version v2) Abstract Masked token을 병렬로 디코딩하여 텍스트 생성 Conditional Masked Language Models X, Yobs가 주어지면 Ymask에 속한 토큰들의 개별 확률을 예측해야 한다. Architecture Causal ma ostin.tistory.com Mask-..
Mask-Predict: Parallel Decoding of Conditional Masked Language Models [Github] [arXiv](2019/09/04 version v2) Abstract Masked token을 병렬로 디코딩하여 텍스트 생성 Conditional Masked Language Models X, Yobs가 주어지면 Ymask에 속한 토큰들의 개별 확률을 예측해야 한다. Architecture Causal mask를 제거한 양방향 transformer. Training Objective Ymask에 대한 cross-entropy. Predicting Target Sequence Length 전체 시퀀스를 병렬로 예측하기 때문에 AR 모델과 같이 동적으로 시퀀스의 끝을 결정할 수 없다. BERT의 cls token과 비슷하게 length token을 입력하고 목표 시퀀스의 길이 N을 예측하도..
Constitutional DPO Constitutional DPO in Weaver: Foundation Models for Creative Writing Instruction Backtranslation 사람이 쓴 고품질의 stylish한 text에 weaver를 조정하기 위해 self-instruction 대신 instruction backtranslation을 수행. 더보기 각 subdomain-task 쌍에 대해 instruction-response 쌍을 작성하는 방법에 대한 5가지 사례에 주석을 단다. (다듬기의 경우 범위를 선택하고 문구나 구조를 수정하여 나쁘게 만들기) GPT-4에 few-shot으로 각 사례와 주석, 주석 처리의 근거를 제공하고 Chain-of-thought (CoT) 추론을 통해 주석 프로세스와 inst..
Weak-to-Strong Jailbreaking on Large Language Models [Github] [arXiv](2024/01/30 version v1) Abstract 작은 규모의 unsafe model을 통해 큰 모델의 출력 분포를 조정하여 Jail-Breaking을 유도 Weak-to-Strong Jailbreaking 작은 safe model을 유해한 예제에 대해 fine-tuning 하여 unsafe model을 얻는다. 위와 같이 strong safe model의 출력 분포를 조정하여 유해한 응답을 생성하도록 할 수 있다. 유일한 조건은 weak model과 strong model이 동일한 vocabulary를 공유해야 한다는 것이다. 본 논문의 핵심은 큰 모델의 직접적인 fine-tuning을 피하고 작은 모델을 fine-tuning 하여 간접적으로 큰 모델이 유해한 토큰..
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! [Project Page] [Github] [arXiv](2023/10/05 version v1) Abstract 10개의 유해한 예제에 대한 fine-tuning 만으로도 LLM의 안전성을 크게 손상시킬 수 있다. Practical Risks of Fine-tuning Aligned LLMs Setup of Our Studies Model: Llama-2-7b-Chat, GPT-3.5 Turbo, the 0613 version. OpenAI fine-tuning API 표준에 따른다. Harmful Examples Demonstration Attack 데이터셋은 N = 10, 50, 100개의 유해한 예제. 다음과 같은 system prompt를 추가한다. 5 epochs 동안 fine-tuning 한..
Jailbroken: How Does LLM Safety Training Fail? [arXiv](2023/07/05 version v1) Abstract Jail-breaking에 대해 조사하고 2가지 실패 모드 가설을 세움 Failure Modes: Competing Objectives and Generalization Mismatch Competing Objectives 언어 모델은 언어 모델링, 지시 준수, 안전 교육 등 다양한 목표에 대해 훈련되며 이 목표들을 충돌시키는 prompt를 활용한다. Example: Prefix Injection 다음과 같이 무해해 보이는 접두사를 출력하도록 요청한다. 연구진이 생각한 이러한 방법이 유효한 이유: 훈련 과정에서 모델이 무해한 지시를 거부하면 페널티를 받는다. 사전 훈련 분포에서 접두사 이후 거부하는 경우가 없기 때문에 응답을 계속한다..