본문 바로가기

논문 리뷰

(452)
Rotary Position Embedding (RoPE) Rotary Position Embedding in RoFormer 참고: 영상: https://www.youtube.com/watch?app=desktop&v=tRe2XHF6UbQ 글: https://velog.io/@wkshin89/MLDL-Rotary-Embeddings RoPE의 직관은 간단하다. QKV linear projection으로 affine 변환된 임베딩에 위치 인덱스의 각도 배수만큼 회전을 걸어주는 것이다. 다음과 같은 fq, fk가 있다. fq = fk 일 때: 각각에 인덱스 배수만큼의 회전을 걸어주면: 왼쪽은 두 단어의 위치가 가까울 때, 오른쪽은 멀 때이다. fq = fk 이더라도 위치의 차이(m-n)에 따라 내적의 결과가 크게 차이 나는 것을 보여준다. 이러한 RoPE는 두 벡..
Speculative Streaming: Fast LLM Inference without Auxiliary Models [arXiv](2024/02/16 version v1) Abstract Speculation & Verification 통합, Multi-stream attention을 통해 효율적인 speculative decoding. Introduction Speculative Decoding Medusa - 추가 모델이 필요하지 않은 단일 모델 speculative decoding Speculative Streaming Streams Design and Initialization Multi-stream attention을 사용하여 다음 토큰 예측 목표를 n-gram 예측으로 변경. (ProphetNet) Main stream: j 번째 speculative stream: Main stream과 이전 specula..
ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training [Github] [arXiv](2020/10/21 version v3) Abstract N-stream self-attention을 통해 미래 n-gram을 예측하는 sequence-to-sequence model인 ProphetNet 제안 ProphetNet Future N-gram Prediction 일반적인 다음 토큰 예측을 미래의 N개의 토큰을 동시에 예측하는 목표로 변경한다. N-Stream Self-Attention Main stream 일반적인 MHA, k번째 레이어의 hidden state에 속한 이전 토큰과 attention을 수행. (a) 1-st predicting stream 2-nd predicting stream yt 예측을 위한 gt-1 계산과 yt+1 예측을 위한 st-1 계..
Linear Transformers with Learnable Kernel Functions are Better In-Context Models (ReBased) [Github] [arXiv](2024/02/16 version v1) Abstract In-Context Learning 능력을 증폭시키기 위한 Linear Transformer Kernel 설계 Background Linear Transformers Linear Transformer 논문 리뷰 Based 적절한 커널 함수 ϕ의 선택은 중요하다. Zoology에서는 지수 함수의 Taylor series expansion에서 영감을 받은 커널 함수와 convolution-attention hybrid architecture를 활용한 Based model을 제안하였다. (근데 막상 Zoology 논문에 저런 커널 얘기는 없는디?) Revisiting Based Based 커널은 최솟값이 고정되어 있어 at..
Zoology: Measuring and Improving Recall in Efficient Language Models [Github] [arXiv](2023/12/08 version v1) Abstract Gated Convolution-Attention Hybrid model을 통해 multi-query associative recall (MQAR) 작업에서의 성능 향상 Background and Preliminaries Sequence mixers Attention Gated-Convolutions (= State Space Model의 일종, ≠ Mamba) Gated-convolution의 예: Hippo, Hungry Hungry Hippos (H3) Identifying the associative recall problem Fine-grained analysis of downstream quality Seq..
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation (SPIN-Diffusion) [arXiv](2024/02/15 version v1) Abstract Self-Play Fine-Tuning (SPIN)을 확산 모델에 적용한 SPIN-Diffusion 제안 Problem Setting and Preliminaries Text-to-Image Diffusion Model Self-Play Fine-Tuning (SPIN) Method SPIN을 확산 모델에 그대로 적용하는 것에는 한 가지 문제가 있다. LLM에서는 확률 pθ(x0|c)를 얻기 쉽지만, 확산 모델에서는 모든 timestep의 궤적을 계산해야 하므로 다루기 어렵다. Differentiating Diffusion Processes Self-play와 같은 최소화 목표로 시작. Deceiving the Test Functio..
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models (SPIN) [Project Page] [Github] [arXiv](2024/02/12 version v2) Abstract SFT data를 활용한 self-play mechanism을 통해 성능을 점진적으로 향상시키는 SPIN (Self-Play fIne-tuNing) 제안 Problem Setting and Preliminaries LLM의 다음 토큰 예측: Supervised Fine-Tuning (SFT): 모델의 예측 분포 pθ​(y∣x)가 고품질 QA 데이터셋의 분포 pdata(y∣x)와 일치할 때 최소가 된다. RL Fine-Tuning: 보상 모델 r을 기준으로 보상을 최대화, 안정적인 훈련을 위해 KL regularization 추가. Self-Play Fine-Tuning (SPIN) 인간과 L..
Generative Representational Instruction Tuning (GRIT) [Github] [arXiv](2024/02/15 version v1) Abstract Instruction tuning을 통해 LLM이 embedding과 generative task를 구별하여 처리할 수 있도록 훈련된 GRIT (Generative Representational Instruction Tuning) 소개 GRIT Representational instruction tuning In-batch negatives와 함께 contrastive objective를 사용하여 손실을 계산한다. (참고) 위 그림과 같이 bidirectional attention을 채택하고 최종 표현을 생성하기 위해 마지막 hidden state에 mean pooling을 적용한다. fθ = GRIT, σ = poo..
Chain-of-Thought Reasoning Without Prompting (CoT-decoding) [arXiv](2024/02/15 version v1) Abstract 단순히 decoding process를 변경함으로써 prompting 없이 CoT reasoning path를 도출할 수 있는 CoT-decoding 소개 Introduction 입력은 "Q:[question]\nA:" 형식이다. Greedy decoding 대신 대안적인 경로를 탐색하며 CoT가 디코딩 경로에 존재할 때 더 높은 신뢰도를 갖는 경향이 있다. Chain-of-Thought (CoT) Decoding The Presence of CoT Paths during Decoding Greedy decoding 모델은 즉각적인 문제 해결 경향이 있으며, 이는 일반적으로 정확도가 낮다. 반면에 첫 번째 디코딩 단계에서 top-k ..
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data [Audio Sample] [arXiv](2024/02/15 version v2) 모델은 윤리적인 이유로 공개하지 않는다고 한다. Abstract 100K 시간의 음성 데이터에 대해 훈련된 현존하는 가장 큰 규모의 autoregressive TTS model인 BASE( Big Adaptive Streamable TTS with Emergent abilities) TTS 제안 Introduction BASE TTS는 이전 최고치의 두 배에 달하는 100K 시간의 공개 음성 데이터에 대해 훈련된 LTTS이다. LLM의 성공에서 영감을 받아 다음 토큰 예측을 사용한다. Speechcode라는 개별 음성 표현을 사용한다. BASE TTS Dataset D = {x, y}. x는 text이고 y는 그에 해당하는..
Mixtures of Experts Unlock Parameter Scaling for Deep RL [arXiv](2024/02/13 version v1) Abstract 강화 학습에서 MoE를 통한 피라미터 확장으로 성능 향상 Preliminaries Mixture of Experts (MoE) SoftMoE 강화 학습 대체 뭐냐? Mixture of Experts for Deep RL Where to place the MoEs? 두 번째 FFN layer. What is a token? 실험 결과 PerConv 방식이 가장 성능이 좋았다고 함. 또한 전문가 출력에서 입력 크기를 유지하기 위해 linear projection 추가. What flavour of MoE to use? Top1-MoE, SoftMoE Empirical evaluation 다양하고 도전적인 픽셀 기반 환경 모음인 Arcad..
From Sparse to Soft Mixtures of Experts (SoftMoE) [Github] [arXiv](2023/08/02 version v1) Abstract Mixture of Experts의 문제들을 해결하면서 이점을 유지하는 완전 미분 가능한 SoftMoE 제안 Soft Mixture of Experts SoftMoE는 단일 토큰이 아닌 토큰들의 가중 평균을 할당한다. 사실 이 그림만 봐도 SoftMoE 완벽 이해됨. Algorithm description d 차원인 m개의 토큰이 포함된 입력 시퀀스 X, d 차원 피라미터와 p slots을 가진 n개의 전문가가 포함된 MoE layer. 각 슬롯은 개별적으로 피라미터 Φ를 가진다. Input slots X̃는 다음과 같이 입력 X에 각 슬롯에 대한 피라미터 Φ를 적용하고 softmax를 적용하는 dispatch wei..