본문 바로가기

논문 리뷰/etc.

Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution (LP-FT)

[arXiv](2022/02/21 version v1)

 

Abstract

Linear Probing then full Fine-Tuning (LP-FT) 전략 소개

 

 

 

Introduction

사전 훈련된 feature extractor(맨 왼쪽)가 주어지면, 이를 작업에 활용하기 위해 head를 추가하여 전체 모델을 fine-tuning 하거나, head만 훈련하는 linear probing을 수행할 수 있다. 

 

Fine-tuning 시 ID(In-Distribution) 정확도는 높지만, OOD(Out-Of-Distribution) 정확도는 오히려 linear probing 보다 떨어진다.

 

 

Theory: fine-tuning distorts pretrained features

w*는 이상적인 모델의 분포를 의미한다.

 

Linear probing은 w*와 동일한 ID 분포를 가지는, extractor B의 scaling인 wlp를 학습한다.

 

반면에 fine-tuning에서는 extractor가 ID 분포를 따라 업데이트되어 큰 OOD error를 발생시킨다.

 

 

Linear probing then fine-tuning: a simple variant to mitigate tradeoffs

이러한 문제는 주로 사전 훈련된 extractor의 작은 gradient가 random or zero initialized head의 큰 gradient와 결합되어 extractor의 feature가 왜곡되기 때문에 발생한다.

 

LP-FT는 linear probing을 통해 head를 미리 훈련하여 fine-tuning 시에 사용한다.

이러한 방법은 extractor에 정렬된 head가 안정적인 gradient를 생성하여 OOD error를 크게 증가시키지 않고 훈련할 수 있다.