본문 바로가기

논문 리뷰/Language Model

(148)
Mask-Predict: Parallel Decoding of Conditional Masked Language Models [Github] [arXiv](2019/09/04 version v2) Abstract Masked token을 병렬로 디코딩하여 텍스트 생성 Conditional Masked Language Models X, Yobs가 주어지면 Ymask에 속한 토큰들의 개별 확률을 예측해야 한다. Architecture Causal mask를 제거한 양방향 transformer. Training Objective Ymask에 대한 cross-entropy. Predicting Target Sequence Length 전체 시퀀스를 병렬로 예측하기 때문에 AR 모델과 같이 동적으로 시퀀스의 끝을 결정할 수 없다. BERT의 cls token과 비슷하게 length token을 입력하고 목표 시퀀스의 길이 N을 예측하도..
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! [Project Page] [Github] [arXiv](2023/10/05 version v1) Abstract 10개의 유해한 예제에 대한 fine-tuning 만으로도 LLM의 안전성을 크게 손상시킬 수 있다. Practical Risks of Fine-tuning Aligned LLMs Setup of Our Studies Model: Llama-2-7b-Chat, GPT-3.5 Turbo, the 0613 version. OpenAI fine-tuning API 표준에 따른다. Harmful Examples Demonstration Attack 데이터셋은 N = 10, 50, 100개의 유해한 예제. 다음과 같은 system prompt를 추가한다. 5 epochs 동안 fine-tuning 한..
Jailbroken: How Does LLM Safety Training Fail? [arXiv](2023/07/05 version v1) Abstract Jail-breaking에 대해 조사하고 2가지 실패 모드 가설을 세움 Failure Modes: Competing Objectives and Generalization Mismatch Competing Objectives 언어 모델은 언어 모델링, 지시 준수, 안전 교육 등 다양한 목표에 대해 훈련되며 이 목표들을 충돌시키는 prompt를 활용한다. Example: Prefix Injection 다음과 같이 무해해 보이는 접두사를 출력하도록 요청한다. 연구진이 생각한 이러한 방법이 유효한 이유: 훈련 과정에서 모델이 무해한 지시를 거부하면 페널티를 받는다. 사전 훈련 분포에서 접두사 이후 거부하는 경우가 없기 때문에 응답을 계속한다..
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model [Github] [arXiv](2024/01/29 version v1) Abstract Visual token에만 LoRA를 적용하는 Partial LoRA, 이를 활용해 Interleaved Text-Image Composition이 뛰어난 InternLM-XComposer2 제안 Introduction InternLM-XComposer에서 발전한 모델이며 핵심은 Partial LoRA(P-LoRA)와 다양한 고품질의 data foundation이다. Method Model Architecture P-LoRA를 통해 vision encoder와 LLM을 통합한다. Vision Encoder P-LoRA와 함께 사용할 경우 경량 모델이 효과적으로 작동하는 것으로 나타났기 때문에 이전 연구에서 사용한 EV..
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition [arXiv](2023/12/14 version v5) Abstract 자연스러운 Interleaved Text-Image Composition이 가능한 InternLM-XComposer 제안 Method Model Architecture Visual Encoder EVA-CLIP 사용 Perceive Sampler 인식 샘플러는 이미지 임베딩을 LLM의 표현에 정렬하는 역할을 하며 BLIP2와 같이 visual encoder와의 cross-attention이 있는 BERT를 사용한다. Large Language Model InternLM Training Pre-training Interleaved, paired multi-modal data와 LLM의 성능을 유지하기 위해 InternLM의 사전 훈련에..
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [Github] [arXiv](2024/01/29 version v1) Abstract Mixture-of-Experts + LLaVA Method LLaVA LLaVA-1.5 Mixture-of-Experts (MoE) LIMoE (Multi-modal MoE) MoE-tuning Stage I LLM이 visual token을 이해할 수 있도록 MLP layer를 훈련. Stage II Multi-modal instruction data를 통해 fine-tuning. Stage III MoE 훈련. 각 토큰은 라우팅 된 top-k 전문가의 가중합으로 집계된다. Objective Auto-regressive Loss P개의 토큰을 순서대로 생성하는 일반적인 자기 회귀 목표. Auxiliary Loss ..
SliceGPT: Compress Large Language Models by Deleting Rows and Columns [Github] [arXiv](2024/01/26 version v1) Abstract Weight matrix를 small matrix로 대체하는 새로운 post-training sparsification 방식인 SliceGPT 제안 Transformer networks Embeddings : Wembd LayerNorm Attention Blocks Non-linearity(σ)인 MHA을 기준으로 입, 출력 행렬로 나누어 다음과 같이 표기할 수 있다. FFN Blocks Language Modelling (LM) Head 최종 출력 헤드. Forward Pass SliceGPT Computational invariance in transformer networks LayerNorm transform..
Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text [Github] [arXiv](2024/01/22 version v1) Abstract 한 쌍의 LLM을 대조하여 간단하게 LLM이 생성한 글을 탐지할 수 있는 Binoculars 제안 Binoculars: How it Works Background & Notation 모델 M은 입력 문자열 s를 tokenization 후 확률 분포를 출력하여 어휘집 V 내에서 다음 토큰을 예측한다. 문자열이 얼마나 놀라운지 측정하는 log-perplexity: 한 모델의 결과가 다른 모델에 얼마나 놀라운지 측정하는 cross-perplexity. Cross-entropy와 비슷하다. What makes detection hard? A primer on the capybara problem. 왜 cross-perplex..
Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads 메두사 같은 병렬 헤드를 통한 빠른 생성 [Github] [arXiv](2024/01/19 version v1) 본 논문의 대략적인 맥락, 결과에 대해서는 Medusa Homepage에 잘 설명되어 있다. Homepage Tianle Cai*, Yuhong Li*, Zhengyang Geng, Hongwu Peng, Tri Dao (* Equal contribution) sites.google.com 참고: Speculative Decoding Key Components Medusa Heads Original head가 t번째 토큰을 예측할 때, k번째 medusa head는 t+k번째 토큰을 예측하도록 훈련된다. Medusa head는 이전 연구와 똑같이 잔차 연결이 있는 feedforward netw..
Fast Inference from Transformers via Speculative Decoding [arXiv](2023/05/18 version v2) Abstract 여러 개의 토큰을 병렬로 계산하여 더 빠르게 샘플링하는 Speculative Decoding 제안 Speculative Decoding 효율적인 모델 Mq가 토큰 시퀀스를 생성하고 목표 모델 Mp가 해당 시퀀스를 평가하여 토큰을 수용하거나 거부하고, 대안을 생성한다. 각 라인은 한 번의 decoding step이다. Standardized Sampling Argmax, top-k, nucleus, temperature 등 다양한 샘플링 설정이 있지만 본문에서는 생략하고 일반적인 경우만 가정. Speculative Sampling 준비물: 각 모델, 토큰 시퀀스 γ개의 예측 생성 Mp를 병렬로 실행하여 γ개의 예측을 각각 생성 q(x)..
Truncation Sampling as Language Model Desmoothing (η-sampling) [arXiv](2022/10/27 version v1) Abstract 언어 모델에서 추출한 긴 텍스트 샘플은 품질이 좋지 않을 수 있다. 이 문제를 해결하기 위해 entropy에 따른 확률 임계값 이하로 단어를 잘라내는 η-sampling 소개 Introduction 언어 모델에서 고품질의 다양한 샘플을 생성하는 데 효과적인 방법 중 하나는 truncation sampling이다. 이는 각 단어를 생성할 때 확률이 낮은 일부 단어의 확률을 0으로 설정한다. Truncation의 원칙: 확률이 높은 단어는 잘리면 안 되고 분포의 모든 단어가 확률이 낮을 때는 나머지 단어에 비해 확률이 낮은 단어만 잘라야 한다. η-sampling: 절대 확률 임계값보다 작고 분포의 entropy에 따라 달라지는 확률 임..
Self-Rewarding Language Models [Github] [arXiv](2024/01/18 version v1) Abstract 언어 모델이 학습 중에 스스로 보상을 제공하도록 유도하는 LLM-as-a-Judge prompt를 통해 Self-Rewarding Language Model을 연구한다. Self-Rewarding Language Models Initialization 훈련 중에 사용되는 2가지 seed dataset: 사전 훈련된 모델에서 SFT(Supervised Fine-Tuning)를 수행하는 데 필요한, 인간이 작성한 IFT(Instruction Fine-Tuning) data 아래 그림과 같이 모델에게 응답의 품질을 평가하도록 요청하여 얻은 EFT(Evaluation Fine-Tuning) data Self-Instructi..