본문 바로가기

논문 리뷰/Language Model

BiLLM: Pushing the Limit of Post-Training Quantization for LLMs

[Github]

[arXiv](2024/02/06 version v1)

 

 

Abstract

고정밀 추론이 가능한 1-bit post-training quantization (PTQ) 방식인 BiLLM 제안

 

 

 

Introduction

두 가지 중요한 관찰:

  • 가중치의 Hessian matrix는 긴 꼬리 분포를 보인다.
  • 가중치 크기의 density distribution은 종 모양 패턴을 따른다.

 

이는 대부분의 가중치가 중복적이고 소수의 가중치가 중요한 역할을 한다는 것을 의미하며 공격적인 양자화를 가능하게 한다.

 

두 가지 핵심 설계:

  • Hessian matrix를 통해 유의미한 가중치의 복원을 극대화
  • 비돌출 가중치에 대한 최적의 분할 이진화 전략

 

일반적인 네트워크 이진화:

 

 

 

Method

  • Salient Weight Binarization for LLMs
  • Bell-shaped Distribution Splitting for Binarization

 

Salient Weight Binarization for LLMs

Hessian matrix는 민감도 측정을 위한 일반적인 벤치마크이다.

 

Structural Searching Selection

비구조적 선택을 사용하면 추가적인 인덱스를 위한 비트가 소모될뿐더러 이상치는 대부분 특정 행이나 열에 집중되어 있기 때문에 구조적 선택을 사용.

BiLLM에서는 가중치 행렬을 열 별로 분할하여 돌출성을 결정한다.

 

각 열에 대해 돌출성 내림차순으로 정렬한 뒤 양자화 목표는 다음과 같으며

 

다음으로 설정하면 간단히 풀 수 있고

 

최적화 함수는 다음과 같다.

salience, unsalience

 

Binary Residual Approximation

돌출된 가중치를 보존하면 이진화의 이점이 약화된다. 양자화 오류를 최소화하며 이진화하기 위한 새로운 접근법.

 

이진화 후 잔차를 다시 이진화한다.

양자화 오류:

 

Bell-shaped Distribution Splitting for Binarization

극단적인 이진 양자화는 많은 손실이 발생하기 때문에 추가적으로 group-wise 양자화를 사용한다.

 

나머지 비돌출 가중치를 다시 두 그룹으로 나누고 다른 scale로 양자화한다.

 

위 분포가 대칭인 확률 밀도 함수 g(x)라고 가정하면 양자화 오류는 다음과 같고

 

p로 분할하면

n = number of weight elements

 

최적화 목표:

 

이상적인 가우스 분포를 따를 때, 이는 이전 연구에서 global minimum을 갖는 convex function임이 입증되었다.

 

실제로는 모든 열을 몇 개의 블록으로 나누고 각 블록에서 각 요소들을 잔차 오류 순으로 정렬한 뒤에 블록 내에서 최적의 중단점 p를 계산한다.

 

 

 

Experiments

ptb, c4 둘다 낮을수록 좋음