The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for Large Language Models (oBERT)

대규모 모델의 경우 블록으로 나누어 블록째로 가지치기

[arXiv](Current version v3)

Abstract

대규모 모델인 BERT를 희소화할 수 있는 Optimal BERT Surgeon(oBERT) 제안

WoodFisher와 다른 점은 그룹으로 진행된다는 점이다.

WoodFisher의 e_q는 단일 기저벡터였다면, 본 논문의 e_k는 블록 내 인덱스에 해당하는 기저벡터의 집합이다.

(편의성을 위해 s.t. ~ 수식의 표기 변경)

그 뒤론 똑같음.

Pruning the optimal set of weights

가지치기될 각 블록들의 조합까지 계산하는 것은 불가능하므로 블록 간의 상관관계를 무시하고 p_Q가 낮은 블록들을 제거한다.

Memory and run-time complexity

경험적 fisher matrix를 구하는 데는 WoodFisher에서 언급한 블록별 대각성분 근사를 활용한다.

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers (0)	2023.11.02
Loss Aware Post-training Quantization (LAPQ) (2)	2023.11.01
Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and Pruning (OBC) (1)	2023.10.30
WoodFisher: Efficient Second-Order Approximation for Neural Network Compression (1)	2023.10.27
Accelerated Sparse Neural Training (0)	2023.10.26
Online normalizer calculation for softmax (1)	2023.10.23