본문 바로가기

논문 리뷰/Language Model

(148)
Chronos: Learning the Language of Time Series [Github] [arXiv](2024/03/12 version v1) Abstract LLM architecture를 이용한 시계열 모델링 프레임워크 Chronos: A Language Modeling Framework for Time Series 본 연구는 아직 실험적인 단계로 아직 많은 보완이 필요하다는 것을 미리 알림. Time Series Tokenization 시계열 x: C는 과거 context이며 H는 예측 범위. Scaling 시계열 데이터는 원래의 특성과 패턴을 유지하는 것이 중요하기 때문에 평균을 0으로 정규화하지 않는다. Quantization 실수 값인 시계열 데이터를 B개의 bin으로 나누어 양자화한다. 그리고 1 ~ B, PAD, EOS를 time series vocabular..
Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [arXiv](2024/03/12 version v1) Abstract LLM을 각 도메인에 대해 개별 훈련한 후 단일 MoE 모델로 통합 Branch-Train-MiX Branch-Train-Merge와 Mixture-of-Experts를 결합하였다. Branch & Train: Embarrassingly Parallel Expert Training 각 LLM을 각 데이터셋에 대해 훈련한다. Branch-Train-Merge에서는 이렇게 훈련된 LLM 중 사용할 LLM들을 선택하고 단순히 평균을 계산하였다. MiX: Combining Separate Experts to be a Mixture-of-Experts Feedforward layer에서는 MoE와 같은 구조를 사용하며 self-attentio..
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [Github] [arXiv](2024/03/06 version v1) AbstractGradient를 low-rank로 투영하여 메모리 집약적인 계산을 수행하는, LoRA 보다 메모리 효율적인 GaLore (Gradient Low-Rank Projection) 제안 GaLore: Gradient Low-Rank ProjectionBackgroundLow-Rank Property of Weight GradientGradient Low-rank Projection (GaLore)이 챕터 선 한 줄 요약: 훈련이 진행될수록 gradient의 rank가 낮아지며, 이를 이용해 메모리 집약적인 계산을 low-rank에서 수행한다. Background Regular full-rank training Timeste..
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [arXiv](2024/02/27 version v1) Abstract Ternary quantization {-1,0,1}을 통해 고정밀도 LLM과 같은 성능의 BitNet b1.58 제안 BitNet b1.58 [BitNet] 기반 Quantization Function 먼저 평균 절댓값으로 크기를 조정한 다음 -1, 0, 1 중 가장 가까운 정수로 반올림. BitNet에서는 ReLU 이전의 활성화는 [0, Q] 범위로 양자화했지만 본문에서는 모든 활성화를 [-Q, Q]로 양자화한다. 구현이나 시스템적으로 깔끔해서 그렇게 했지만, 성능 차이는 거의 없었다고. LLaMA-alike Components LLaMA와 같이 RMSNorm, SwiGLU, Rotary embedding, 모든 bias 제거를 ..
BitNet: Scaling 1-bit Transformers for Large Language Models [Github] [arXiv](2023/10/17 version v1) Abstract 가중치를 1-bit로 양자화하는 Transformer architecture BitNet 아래 그림과 같이 linear 한 연산들을 BitLinear로 교체한다. 대형 모델에서 큰 계산 비용을 차지하지 않는 다른 부분들은 8-bit로 유지하여 입출력의 정밀도를 유지한다. BitLinear 가중치 W의 평균을 0으로 바꾸고 이진화 후 역 양자화 시 β로 스케일링. 활성화 x는 최대 절댓값을 기준으로 하는 absmax 양자화를 통해 8-bit로 양자화. 작은 분산은 훈련 안정성에 도움을 주기 때문에 활성화 양자화 전 LayerNorm 적용. BitLinear 연산 요약: Model Training 양자화는 미분 불가능하지..
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases [arXiv](2024/02/22 version v1) Abstract 가중치 공유 등 여러 기술들을 활용하여 매우 효율적인 on-device LLM SwiGLU Vanilla FFN (FC → ReLU → FC)을 SwiGLU로 변경하면 성능이 향상된다. Deep and thin 소형 모델에서는 모델 구조 또한 중요하다. 깊은 모델이 더 성능이 좋았다. Embedding Share 임베딩 계층의 피라미터는 대형 모델에서는 사소하지만 소형 모델에서는 큰 비중을 차지한다. 입출력 임베딩의 가중치 크기는 (vocab_size, embedding_dim)으로 같기 때문에 공유하여 피라미터를 크게 줄일 수 있다. 떨어진 정확도는 소량의 레이어(=2)를 추가하면 복구할 수 있다. MQA (GQA인데 왜 MQA로 ..
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens [arXiv](2024/02/21 version v1) Abstract 검색을 통해 최적의 RoPE 재조정 인자를 찾고 LLM context window를 2048k까지 확장 Non-uniformity in Positional Interpolation Preliminary Rotary Position Embedding 임베딩 차원 d, 토큰 위치 n, 회전 주파수(=회전율, 회전 각도. 차원 i가 작을수록 주파수와 회전각이 크다)가 다음과 같을 때, RoPE는 다음과 같이 단순화될 수 있다. Context window extension ratio s and positional interpolation 원래 context 길이 L에 대한 확장된 context 길이 L'의 비율 s를 정의한다. ( s = L..
Speculative Streaming: Fast LLM Inference without Auxiliary Models [arXiv](2024/02/16 version v1) Abstract Speculation & Verification 통합, Multi-stream attention을 통해 효율적인 speculative decoding. Introduction Speculative Decoding Medusa - 추가 모델이 필요하지 않은 단일 모델 speculative decoding Speculative Streaming Streams Design and Initialization Multi-stream attention을 사용하여 다음 토큰 예측 목표를 n-gram 예측으로 변경. (ProphetNet) Main stream: j 번째 speculative stream: Main stream과 이전 specula..
ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training [Github] [arXiv](2020/10/21 version v3) Abstract N-stream self-attention을 통해 미래 n-gram을 예측하는 sequence-to-sequence model인 ProphetNet 제안 ProphetNet Future N-gram Prediction 일반적인 다음 토큰 예측을 미래의 N개의 토큰을 동시에 예측하는 목표로 변경한다. N-Stream Self-Attention Main stream 일반적인 MHA, k번째 레이어의 hidden state에 속한 이전 토큰과 attention을 수행. (a) 1-st predicting stream 2-nd predicting stream yt 예측을 위한 gt-1 계산과 yt+1 예측을 위한 st-1 계..
Linear Transformers with Learnable Kernel Functions are Better In-Context Models (ReBased) [Github] [arXiv](2024/02/16 version v1) Abstract In-Context Learning 능력을 증폭시키기 위한 Linear Transformer Kernel 설계 Background Linear Transformers Linear Transformer 논문 리뷰 Based 적절한 커널 함수 ϕ의 선택은 중요하다. Zoology에서는 지수 함수의 Taylor series expansion에서 영감을 받은 커널 함수와 convolution-attention hybrid architecture를 활용한 Based model을 제안하였다. (근데 막상 Zoology 논문에 저런 커널 얘기는 없는디?) Revisiting Based Based 커널은 최솟값이 고정되어 있어 at..
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models (SPIN) [Project Page] [Github] [arXiv](2024/02/12 version v2) Abstract SFT data를 활용한 self-play mechanism을 통해 성능을 점진적으로 향상시키는 SPIN (Self-Play fIne-tuNing) 제안 Problem Setting and Preliminaries LLM의 다음 토큰 예측: Supervised Fine-Tuning (SFT): 모델의 예측 분포 pθ​(y∣x)가 고품질 QA 데이터셋의 분포 pdata(y∣x)와 일치할 때 최소가 된다. RL Fine-Tuning: 보상 모델 r을 기준으로 보상을 최대화, 안정적인 훈련을 위해 KL regularization 추가. Self-Play Fine-Tuning (SPIN) 인간과 L..
Generative Representational Instruction Tuning (GRIT) [Github] [arXiv](2024/02/15 version v1) Abstract Instruction tuning을 통해 LLM이 embedding과 generative task를 구별하여 처리할 수 있도록 훈련된 GRIT (Generative Representational Instruction Tuning) 소개 GRIT Representational instruction tuning In-batch negatives와 함께 contrastive objective를 사용하여 손실을 계산한다. (참고) 위 그림과 같이 bidirectional attention을 채택하고 최종 표현을 생성하기 위해 마지막 hidden state에 mean pooling을 적용한다. fθ = GRIT, σ = poo..