본문 바로가기

논문 리뷰

(452)
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks [Github] [arXiv](2024/03/01 version v1) Abstract 피라미드 형태의 LLaMA-like vision transformer를 통한 이미지 모델링 Method Plain Transformer DiT framework를 기반으로 하며, Stable Diffusion의 사전 훈련된 VAE를 사용했다. LLaMA를 따라 일반 ViT에서 RoPE, SwiGLU 채택. 실험적으로 LayerNorm이 RMSNorm보다 좋았으므로 변경하지 않았다. 패치의 행, 열에 각각 RoPE를 적용하는 2D RoPE를 사용하였다. Pyramid Transformer Self-attention의 효율성을 위해 피라미드 구조를 사용하며, Swin 보다 강력한 Twins의 구조를 채택하였다. (b) T..
EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions [Project Page] [Github] [arXiv](2024/02/27 version v1) 성능이 말도 안 된다;; 그냥 미쳤다 이건;; Abstract 3D model, face landmark 등 강한 조건을 사용하지 않고 원활한 프레임 전환, 일관된 ID가 보장된 비디오 생성 Method Network Pipelines Backbone Network Stable Diffusion 1.5 기반 Audio Layers wav2vec 모델을 통해 각 프레임에 대한 음성 표현 추출. 백본에 audio-attention layer 추가. 모션은 숨을 들이쉬고 내쉬는 등 주변 프레임의 영향을 받기 때문에 이들을 연결하여 각 프레임의 음성 feature를 정의한다. ReferenceNet Referenc..
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [arXiv](2024/02/27 version v1) Abstract Ternary quantization {-1,0,1}을 통해 고정밀도 LLM과 같은 성능의 BitNet b1.58 제안 BitNet b1.58 [BitNet] 기반 Quantization Function 먼저 평균 절댓값으로 크기를 조정한 다음 -1, 0, 1 중 가장 가까운 정수로 반올림. BitNet에서는 ReLU 이전의 활성화는 [0, Q] 범위로 양자화했지만 본문에서는 모든 활성화를 [-Q, Q]로 양자화한다. 구현이나 시스템적으로 깔끔해서 그렇게 했지만, 성능 차이는 거의 없었다고. LLaMA-alike Components LLaMA와 같이 RMSNorm, SwiGLU, Rotary embedding, 모든 bias 제거를 ..
BitNet: Scaling 1-bit Transformers for Large Language Models [Github] [arXiv](2023/10/17 version v1) Abstract 가중치를 1-bit로 양자화하는 Transformer architecture BitNet 아래 그림과 같이 linear 한 연산들을 BitLinear로 교체한다. 대형 모델에서 큰 계산 비용을 차지하지 않는 다른 부분들은 8-bit로 유지하여 입출력의 정밀도를 유지한다. BitLinear 가중치 W의 평균을 0으로 바꾸고 이진화 후 역 양자화 시 β로 스케일링. 활성화 x는 최대 절댓값을 기준으로 하는 absmax 양자화를 통해 8-bit로 양자화. 작은 분산은 훈련 안정성에 도움을 주기 때문에 활성화 양자화 전 LayerNorm 적용. BitLinear 연산 요약: Model Training 양자화는 미분 불가능하지..
Multi-LoRA Composition for Image Generation [Project Page] [Github] [arXiv](2024/02/26 version v1) Abstract LoRA 병합 방법인 LoRA-S, C와 Testbed인 ComposLoRA 제안 Multi-LoRA Composition through a Decoding-Centric Perspective 기존의 LoRA 병합 방식인 LoRA Merge는 다음과 같다. 하지만 이 방식은 많은 LoRA를 병합 시 불안정해진다. LoRA-Switch (LoRA-S) 생성 전반에 걸쳐 LoRA를 순차적으로 활성화 LoRA-Composite (LoRA-C) i 번째 LoRA를 통합한 모델 피라미터를 θi' 라고 하자. 각 LoRA에 대한 CFG score를 집계한다. Experiments ComposLoRA T..
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases [arXiv](2024/02/22 version v1) Abstract 가중치 공유 등 여러 기술들을 활용하여 매우 효율적인 on-device LLM SwiGLU Vanilla FFN (FC → ReLU → FC)을 SwiGLU로 변경하면 성능이 향상된다. Deep and thin 소형 모델에서는 모델 구조 또한 중요하다. 깊은 모델이 더 성능이 좋았다. Embedding Share 임베딩 계층의 피라미터는 대형 모델에서는 사소하지만 소형 모델에서는 큰 비중을 차지한다. 입출력 임베딩의 가중치 크기는 (vocab_size, embedding_dim)으로 같기 때문에 공유하여 피라미터를 크게 줄일 수 있다. 떨어진 정확도는 소량의 레이어(=2)를 추가하면 복구할 수 있다. MQA (GQA인데 왜 MQA로 ..
Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping (SearchFormer) [arXiv](2024/02/21 version v1) Abstract Transformer를 통해 maze, sokoban puzzle과 같은 복잡한 의사 결정 작업 해결 Problem Setup 문제: 미로 탐색과 sokoban puzzle 직접 해보기. 이거 생각보다 재밌음;; 시간 순삭 조심;; Generating execution traces of A∗ search A*(A-star로 읽음) 알고리즘을 통해 2가지 토큰 시퀀스를 생성할 수 있다. Search-augmented sequence: 형태로 execution trace, optimal plan을 포함한다. Solution-only sequence: 형태. Training a Transformer model T5, RoPE 인코더는 를 ..
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information [Github] [arXiv](2024/02/29 version v2) Abstract Programmable Gradient Information(PGI), Generalized ELAN(GELAN)을 통해 information bottleneck 현상을 완화하고 성능 향상 [YOLO v1 ~ v7 변천사] [YOLO v7] Problem Statement Information Bottleneck Principle 레이어가 깊을수록 원래 데이터가 더 많이 손상된다. 모델의 깊이 대신 너비를 확장하여 이를 완화할 수 있다. Reversible Functions 다음과 같은 가역 함수가 있다고 하자. 네트워크가 가역 함수로 구성되면 정보의 손실 없이 데이터를 변환하고 역전파할 수 있다. Methodolog..
SDXL-Lightning: Progressive Adversarial Diffusion Distillation [HuggingFace Checkpoint] [arXiv](2024/03/02 version v3) Abstract Progressive, adversarial distillation을 결합하여 1-step으로 1024x1024 이미지 생성 Background Latent Diffusion Model, SDXL LoRA, LCM-LoRA는 LoRA를 통해 증류를 수행할 수 있다는 것을 보여주었다. Progressive Distillation Adversarial Distillation Method Why Distillation with MSE Fails Adversarial Objective Discriminator Design Relax the Mode Coverage Fix the Schedule D..
Neural Network Diffusion [Project Page] [Github] [arXiv](2024/02/20 version v1) Abstract 확산 모델을 통해 neural network parameter를 생성 Nerual Network Diffusion Parameter autoencoder Preparing the data for training the autoencoder Autoencoder의 훈련 데이터를 수집하기 위해 특정 모델을 처음부터 훈련하고 마지막 epoch의 checkpoints를 저장한다. 데이터로 사용할 모델 피라미터의 하위 집합 S = {s1, ..., sK}를 제외한 나머지 피라미터는 고정한다. 대규모 모델의 경우 fine-tuning 결과를 저장한다. Training parameter autoencod..
FiT: Flexible Vision Transformer for Diffusion Model [Github] [arXiv](2024/02/19 version v1) Abstract RoPE의 context 확장을 이미지에 적용해 무제한의 해상도와 종횡비의 이미지를 생성할 수 있는 Flexible Vision Transformer (FiT) 제안 Flexible Vision Transformer for Diffusion Preliminary 본문의 Preliminary 부분은 LongRoPE 논문 리뷰의 Preliminary에 더 자세히 설명되어 있슴다. 1-D RoPE Rotary Position Embedding NTK-aware Interpolation Scale factor s를 통해 회전 주파수를 축소하여 fine-tuning 없이 context 길이를 확장한다. YaRN (Yet ano..
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens [arXiv](2024/02/21 version v1) Abstract 검색을 통해 최적의 RoPE 재조정 인자를 찾고 LLM context window를 2048k까지 확장 Non-uniformity in Positional Interpolation Preliminary Rotary Position Embedding 임베딩 차원 d, 토큰 위치 n, 회전 주파수(=회전율, 회전 각도. 차원 i가 작을수록 주파수와 회전각이 크다)가 다음과 같을 때, RoPE는 다음과 같이 단순화될 수 있다. Context window extension ratio s and positional interpolation 원래 context 길이 L에 대한 확장된 context 길이 L'의 비율 s를 정의한다. ( s = L..