본문 바로가기

전체 글

(525)
Multi-LoRA Composition for Image Generation [Project Page] [Github] [arXiv](2024/02/26 version v1) Abstract LoRA 병합 방법인 LoRA-S, C와 Testbed인 ComposLoRA 제안 Multi-LoRA Composition through a Decoding-Centric Perspective 기존의 LoRA 병합 방식인 LoRA Merge는 다음과 같다. 하지만 이 방식은 많은 LoRA를 병합 시 불안정해진다. LoRA-Switch (LoRA-S) 생성 전반에 걸쳐 LoRA를 순차적으로 활성화 LoRA-Composite (LoRA-C) i 번째 LoRA를 통합한 모델 피라미터를 θi' 라고 하자. 각 LoRA에 대한 CFG score를 집계한다. Experiments ComposLoRA T..
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases [arXiv](2024/02/22 version v1) Abstract 가중치 공유 등 여러 기술들을 활용하여 매우 효율적인 on-device LLM SwiGLU Vanilla FFN (FC → ReLU → FC)을 SwiGLU로 변경하면 성능이 향상된다. Deep and thin 소형 모델에서는 모델 구조 또한 중요하다. 깊은 모델이 더 성능이 좋았다. Embedding Share 임베딩 계층의 피라미터는 대형 모델에서는 사소하지만 소형 모델에서는 큰 비중을 차지한다. 입출력 임베딩의 가중치 크기는 (vocab_size, embedding_dim)으로 같기 때문에 공유하여 피라미터를 크게 줄일 수 있다. 떨어진 정확도는 소량의 레이어(=2)를 추가하면 복구할 수 있다. MQA (GQA인데 왜 MQA로 ..
Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping (SearchFormer) [arXiv](2024/02/21 version v1) Abstract Transformer를 통해 maze, sokoban puzzle과 같은 복잡한 의사 결정 작업 해결 Problem Setup 문제: 미로 탐색과 sokoban puzzle 직접 해보기. 이거 생각보다 재밌음;; 시간 순삭 조심;; Generating execution traces of A∗ search A*(A-star로 읽음) 알고리즘을 통해 2가지 토큰 시퀀스를 생성할 수 있다. Search-augmented sequence: 형태로 execution trace, optimal plan을 포함한다. Solution-only sequence: 형태. Training a Transformer model T5, RoPE 인코더는 를 ..
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information [Github] [arXiv](2024/02/29 version v2) Abstract Programmable Gradient Information(PGI), Generalized ELAN(GELAN)을 통해 information bottleneck 현상을 완화하고 성능 향상 [YOLO v1 ~ v7 변천사] [YOLO v7] Problem Statement Information Bottleneck Principle 레이어가 깊을수록 원래 데이터가 더 많이 손상된다. 모델의 깊이 대신 너비를 확장하여 이를 완화할 수 있다. Reversible Functions 다음과 같은 가역 함수가 있다고 하자. 네트워크가 가역 함수로 구성되면 정보의 손실 없이 데이터를 변환하고 역전파할 수 있다. Methodolog..
SDXL-Lightning: Progressive Adversarial Diffusion Distillation [HuggingFace Checkpoint] [arXiv](2024/03/02 version v3) Abstract Progressive, adversarial distillation을 결합하여 1-step으로 1024x1024 이미지 생성 Background Latent Diffusion Model, SDXL LoRA, LCM-LoRA는 LoRA를 통해 증류를 수행할 수 있다는 것을 보여주었다. Progressive Distillation Adversarial Distillation Method Why Distillation with MSE Fails Adversarial Objective Discriminator Design Relax the Mode Coverage Fix the Schedule D..
Neural Network Diffusion [Project Page] [Github] [arXiv](2024/02/20 version v1) Abstract 확산 모델을 통해 neural network parameter를 생성 Nerual Network Diffusion Parameter autoencoder Preparing the data for training the autoencoder Autoencoder의 훈련 데이터를 수집하기 위해 특정 모델을 처음부터 훈련하고 마지막 epoch의 checkpoints를 저장한다. 데이터로 사용할 모델 피라미터의 하위 집합 S = {s1, ..., sK}를 제외한 나머지 피라미터는 고정한다. 대규모 모델의 경우 fine-tuning 결과를 저장한다. Training parameter autoencod..
FiT: Flexible Vision Transformer for Diffusion Model [Github] [arXiv](2024/02/19 version v1) Abstract RoPE의 context 확장을 이미지에 적용해 무제한의 해상도와 종횡비의 이미지를 생성할 수 있는 Flexible Vision Transformer (FiT) 제안 Flexible Vision Transformer for Diffusion Preliminary 본문의 Preliminary 부분은 LongRoPE 논문 리뷰의 Preliminary에 더 자세히 설명되어 있슴다. 1-D RoPE Rotary Position Embedding NTK-aware Interpolation Scale factor s를 통해 회전 주파수를 축소하여 fine-tuning 없이 context 길이를 확장한다. YaRN (Yet ano..
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens [arXiv](2024/02/21 version v1) Abstract 검색을 통해 최적의 RoPE 재조정 인자를 찾고 LLM context window를 2048k까지 확장 Non-uniformity in Positional Interpolation Preliminary Rotary Position Embedding 임베딩 차원 d, 토큰 위치 n, 회전 주파수(=회전율, 회전 각도. 차원 i가 작을수록 주파수와 회전각이 크다)가 다음과 같을 때, RoPE는 다음과 같이 단순화될 수 있다. Context window extension ratio s and positional interpolation 원래 context 길이 L에 대한 확장된 context 길이 L'의 비율 s를 정의한다. ( s = L..
Rotary Position Embedding (RoPE) Rotary Position Embedding in RoFormer 참고: 영상: https://www.youtube.com/watch?app=desktop&v=tRe2XHF6UbQ 글: https://velog.io/@wkshin89/MLDL-Rotary-Embeddings RoPE의 직관은 간단하다. QKV linear projection으로 affine 변환된 임베딩에 위치 인덱스의 각도 배수만큼 회전을 걸어주는 것이다. 다음과 같은 fq, fk가 있다. fq = fk 일 때: 각각에 인덱스 배수만큼의 회전을 걸어주면: 왼쪽은 두 단어의 위치가 가까울 때, 오른쪽은 멀 때이다. fq = fk 이더라도 위치의 차이(m-n)에 따라 내적의 결과가 크게 차이 나는 것을 보여준다. 이러한 RoPE는 두 벡..
Speculative Streaming: Fast LLM Inference without Auxiliary Models [arXiv](2024/02/16 version v1) Abstract Speculation & Verification 통합, Multi-stream attention을 통해 효율적인 speculative decoding. Introduction Speculative Decoding Medusa - 추가 모델이 필요하지 않은 단일 모델 speculative decoding Speculative Streaming Streams Design and Initialization Multi-stream attention을 사용하여 다음 토큰 예측 목표를 n-gram 예측으로 변경. (ProphetNet) Main stream: j 번째 speculative stream: Main stream과 이전 specula..
ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training [Github] [arXiv](2020/10/21 version v3) Abstract N-stream self-attention을 통해 미래 n-gram을 예측하는 sequence-to-sequence model인 ProphetNet 제안 ProphetNet Future N-gram Prediction 일반적인 다음 토큰 예측을 미래의 N개의 토큰을 동시에 예측하는 목표로 변경한다. N-Stream Self-Attention Main stream 일반적인 MHA, k번째 레이어의 hidden state에 속한 이전 토큰과 attention을 수행. (a) 1-st predicting stream 2-nd predicting stream yt 예측을 위한 gt-1 계산과 yt+1 예측을 위한 st-1 계..
Linear Transformers with Learnable Kernel Functions are Better In-Context Models (ReBased) [Github] [arXiv](2024/02/16 version v1) Abstract In-Context Learning 능력을 증폭시키기 위한 Linear Transformer Kernel 설계 Background Linear Transformers Linear Transformer 논문 리뷰 Based 적절한 커널 함수 ϕ의 선택은 중요하다. Zoology에서는 지수 함수의 Taylor series expansion에서 영감을 받은 커널 함수와 convolution-attention hybrid architecture를 활용한 Based model을 제안하였다. (근데 막상 Zoology 논문에 저런 커널 얘기는 없는디?) Revisiting Based Based 커널은 최솟값이 고정되어 있어 at..