본문 바로가기

전체 글

(582)
Mask-Predict: Parallel Decoding of Conditional Masked Language Models [Github] [arXiv](2019/09/04 version v2) Abstract Masked token을 병렬로 디코딩하여 텍스트 생성 Conditional Masked Language Models X, Yobs가 주어지면 Ymask에 속한 토큰들의 개별 확률을 예측해야 한다. Architecture Causal mask를 제거한 양방향 transformer. Training Objective Ymask에 대한 cross-entropy. Predicting Target Sequence Length 전체 시퀀스를 병렬로 예측하기 때문에 AR 모델과 같이 동적으로 시퀀스의 끝을 결정할 수 없다. BERT의 cls token과 비슷하게 length token을 입력하고 목표 시퀀스의 길이 N을 예측하도..
Constitutional DPO Constitutional DPO in Weaver: Foundation Models for Creative Writing Instruction Backtranslation 사람이 쓴 고품질의 stylish한 text에 weaver를 조정하기 위해 self-instruction 대신 instruction backtranslation을 수행. 더보기 각 subdomain-task 쌍에 대해 instruction-response 쌍을 작성하는 방법에 대한 5가지 사례에 주석을 단다. (다듬기의 경우 범위를 선택하고 문구나 구조를 수정하여 나쁘게 만들기) GPT-4에 few-shot으로 각 사례와 주석, 주석 처리의 근거를 제공하고 Chain-of-thought (CoT) 추론을 통해 주석 프로세스와 inst..
Weak-to-Strong Jailbreaking on Large Language Models [Github] [arXiv](2024/01/30 version v1) Abstract 작은 규모의 unsafe model을 통해 큰 모델의 출력 분포를 조정하여 Jail-Breaking을 유도 Weak-to-Strong Jailbreaking 작은 safe model을 유해한 예제에 대해 fine-tuning 하여 unsafe model을 얻는다. 위와 같이 strong safe model의 출력 분포를 조정하여 유해한 응답을 생성하도록 할 수 있다. 유일한 조건은 weak model과 strong model이 동일한 vocabulary를 공유해야 한다는 것이다. 본 논문의 핵심은 큰 모델의 직접적인 fine-tuning을 피하고 작은 모델을 fine-tuning 하여 간접적으로 큰 모델이 유해한 토큰..
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! [Project Page] [Github] [arXiv](2023/10/05 version v1) Abstract 10개의 유해한 예제에 대한 fine-tuning 만으로도 LLM의 안전성을 크게 손상시킬 수 있다. Practical Risks of Fine-tuning Aligned LLMs Setup of Our Studies Model: Llama-2-7b-Chat, GPT-3.5 Turbo, the 0613 version. OpenAI fine-tuning API 표준에 따른다. Harmful Examples Demonstration Attack 데이터셋은 N = 10, 50, 100개의 유해한 예제. 다음과 같은 system prompt를 추가한다. 5 epochs 동안 fine-tuning 한..
Jailbroken: How Does LLM Safety Training Fail? [arXiv](2023/07/05 version v1) Abstract Jail-breaking에 대해 조사하고 2가지 실패 모드 가설을 세움 Failure Modes: Competing Objectives and Generalization Mismatch Competing Objectives 언어 모델은 언어 모델링, 지시 준수, 안전 교육 등 다양한 목표에 대해 훈련되며 이 목표들을 충돌시키는 prompt를 활용한다. Example: Prefix Injection 다음과 같이 무해해 보이는 접두사를 출력하도록 요청한다. 연구진이 생각한 이러한 방법이 유효한 이유: 훈련 과정에서 모델이 무해한 지시를 거부하면 페널티를 받는다. 사전 훈련 분포에서 접두사 이후 거부하는 경우가 없기 때문에 응답을 계속한다..
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling [Project Page] [arXiv](2024/01/31 version v2) Abstract 모션 예측과 비디오 생성을 분리하여 명시적인 모션 모델링이 가능한 Motion-I2V 제안 Keyword: Optical flow, Motion-augmented temporal layer, ControlNet Method Motion Prediction with Video Diffusion Models Motion fields modeling 모션 필드로써 optical flow를 채택. Training a motion field predictor 3단계 fine-tuning 전략: 사전 훈련된 LDM을 참조 이미지와 text prompt를 통해 모션 필드를 예측하도록 fine-tuning. LDM을 고정..
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model [Github] [arXiv](2024/01/29 version v1) Abstract Visual token에만 LoRA를 적용하는 Partial LoRA, 이를 활용해 Interleaved Text-Image Composition이 뛰어난 InternLM-XComposer2 제안 Introduction InternLM-XComposer에서 발전한 모델이며 핵심은 Partial LoRA(P-LoRA)와 다양한 고품질의 data foundation이다. Method Model Architecture P-LoRA를 통해 vision encoder와 LLM을 통합한다. Vision Encoder P-LoRA와 함께 사용할 경우 경량 모델이 효과적으로 작동하는 것으로 나타났기 때문에 이전 연구에서 사용한 EV..
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition [arXiv](2023/12/14 version v5) Abstract 자연스러운 Interleaved Text-Image Composition이 가능한 InternLM-XComposer 제안 Method Model Architecture Visual Encoder EVA-CLIP 사용 Perceive Sampler 인식 샘플러는 이미지 임베딩을 LLM의 표현에 정렬하는 역할을 하며 BLIP2와 같이 visual encoder와의 cross-attention이 있는 BERT를 사용한다. Large Language Model InternLM Training Pre-training Interleaved, paired multi-modal data와 LLM의 성능을 유지하기 위해 InternLM의 사전 훈련에..
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [Github] [arXiv](2024/01/29 version v1) Abstract Mixture-of-Experts + LLaVA Method LLaVA LLaVA-1.5 Mixture-of-Experts (MoE) LIMoE (Multi-modal MoE) MoE-tuning Stage I LLM이 visual token을 이해할 수 있도록 MLP layer를 훈련. Stage II Multi-modal instruction data를 통해 fine-tuning. Stage III MoE 훈련. 각 토큰은 라우팅 된 top-k 전문가의 가중합으로 집계된다. Objective Auto-regressive Loss P개의 토큰을 순서대로 생성하는 일반적인 자기 회귀 목표. Auxiliary Loss ..
SliceGPT: Compress Large Language Models by Deleting Rows and Columns [Github] [arXiv](2024/01/26 version v1) Abstract Weight matrix를 small matrix로 대체하는 새로운 post-training sparsification 방식인 SliceGPT 제안 Transformer networks Embeddings : Wembd LayerNorm Attention Blocks Non-linearity(σ)인 MHA을 기준으로 입, 출력 행렬로 나누어 다음과 같이 표기할 수 있다. FFN Blocks Language Modelling (LM) Head 최종 출력 헤드. Forward Pass SliceGPT Computational invariance in transformer networks LayerNorm transform..
Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All (DTC) [Project Page] [arXiv](2024/01/24 version v1) Abstract Virtual try-on을 위한 확산 기반 인페인팅 모델인 Diffuse to Choose (DTC) Method 더보기 Paint by Example Diffusion Inpainting Models PBE에서는 복붙 아티팩트를 피하기 위해 참조 이미지의 클래스 토큰만을 가져왔지만 본문에서는 참조 이미지의 feature가 중요하므로 모든 패치를 받으며 더 큰 이미지 인코더인 DINOv2를 사용하였다. 또한 diffusion loss 외에도 색상 등의 정렬을 위해 생성 이미지와 소스 이미지에 대해 VGGNet의 perceptual loss를 도입했다. Design of Diffuse to Choose Cr..
Rethinking Patch Dependence for Masked Autoencoders (CrossMAE) [Project Page] [Github] [arXiv](2024/01/25 version v1) Abstract Masked Autoencoder에서 디코더의 self-attention을 제거, 훨씬 빠르고 성능 좋음 CrossMAE Preliminaries: Masked Autoencoders Reconstruction with Cross-Attention Partial Reconstruction Inter-block Attention Preliminaries: Masked Autoencoders MAE [논문공부] (자세한 리뷰) Masked Autoencoders are Scalable Vision Learners 들어가며: Masked Autoencoders Are Scalable Vision ..