[arXiv](2022/02/21 version v1)
Abstract
Linear Probing then full Fine-Tuning (LP-FT) 전략 소개
Introduction
사전 훈련된 feature extractor(맨 왼쪽)가 주어지면, 이를 작업에 활용하기 위해 head를 추가하여 전체 모델을 fine-tuning 하거나, head만 훈련하는 linear probing을 수행할 수 있다.
Fine-tuning 시 ID(In-Distribution) 정확도는 높지만, OOD(Out-Of-Distribution) 정확도는 오히려 linear probing 보다 떨어진다.
Theory: fine-tuning distorts pretrained features
w*는 이상적인 모델의 분포를 의미한다.
Linear probing은 w*와 동일한 ID 분포를 가지는, extractor B의 scaling인 wlp를 학습한다.
반면에 fine-tuning에서는 extractor가 ID 분포를 따라 업데이트되어 큰 OOD error를 발생시킨다.
Linear probing then fine-tuning: a simple variant to mitigate tradeoffs
이러한 문제는 주로 사전 훈련된 extractor의 작은 gradient가 random or zero initialized head의 큰 gradient와 결합되어 extractor의 feature가 왜곡되기 때문에 발생한다.
LP-FT는 linear probing을 통해 head를 미리 훈련하여 fine-tuning 시에 사용한다.
이러한 방법은 extractor에 정렬된 head가 안정적인 gradient를 생성하여 OOD error를 크게 증가시키지 않고 훈련할 수 있다.
'논문 리뷰 > etc.' 카테고리의 다른 글
YOLO-World: Real-Time Open-Vocabulary Object Detection (3) | 2024.02.07 |
---|---|
TOOD: Task-aligned One-stage Object Detection (0) | 2024.02.07 |
Zero Bubble Pipeline Parallelism (0) | 2024.01.26 |
Compositional Visual Generation and Inference with Energy Based Models (0) | 2024.01.02 |
Implicit Generation and Modeling with Energy-Based Models (0) | 2024.01.02 |
Coincidence, Categorization, and Consolidation: Learning to Recognize Sounds with Minimal Supervision (0) | 2023.12.15 |