Data Selection for Language Models via Importance Resampling (DSIR)

[arXiv](2023/11/18 version v3)

Introduction

적절한 사전 훈련 데이터셋의 선택은 중요하다. 대규모 raw unlabeled dataset에서 원하는 target distribution에 맞는 데이터 부분 집합을 선택하기 위해 Data Selection with Importance Resampling (DSIR)을 제안한다.

Setup

목표 예제 x'₁, ... , x'_n이 주어지면 원시 데이터셋 x₁, ... , x_N에서 k개의 예제를 선택하는 것을 목표로 한다.

Selection via heuristic classification

일반적으로 사용되는 휴리스틱 분류:

Data Selection with Importance Resampling

1. 각각의 분포에서 추출된 예제를 사용하여 raw distribution에 대한 추정치 q̂_feat와 target distribution에 대한 추정치 p̂_feat를 학습한다.

2. 원시 데이터셋에서 각 featurized example z = h(x)에 대한 importance weight w는 다음과 같이 계산된다.

3. Importance weight에 비례하여 예제가 샘플링될 확률은 다음과 같다.

저작자표시 (새창열림)

'논문 리뷰 > Language Model' 카테고리의 다른 글

OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models (1)	2024.02.19
ST-MoE: Designing Stable and Transferable Sparse Expert Models (1)	2024.02.19
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (0)	2024.02.15
Transfer Learning for Text Diffusion Models (AR2Diff) (0)	2024.02.06
Step-unrolled Denoising Autoencoders for Text Generation (SUNDAE) (0)	2024.02.06
Semi-Autoregressive Training Improves Mask-Predict Decoding (SMART) (0)	2024.02.05

Ostin X

Data Selection for Language Models via Importance Resampling (DSIR)

Introduction

Setup

Data Selection with Importance Resampling

'논문 리뷰 > Language Model' 카테고리의 다른 글

티스토리툴바

Data Selection for Language Models via Importance Resampling (DSIR)

Introduction

Setup

Data Selection with Importance Resampling

'논문 리뷰 > Language Model' 카테고리의 다른 글

'논문 리뷰/Language Model' Related Articles

티스토리툴바