Transfer Learning for Text Diffusion Models (AR2Diff)

[arXiv](2024/01/30 version v1)

Introduction

Text Diffusion과 AR language model 비교
고전적인 AR 방법의 관성에서 오는 text diffusion model의 진입 장벽을 낮추기 위해 사전 훈련된 AR 모델을 확산 모델로 변환하는 AR2Diff 방법을 조사

구글 딥마인드 논문이라 기대했는데 별 내용은 없어요.

표준 transformer의 사전 훈련된 AR model checkpoint에서 SUNDAE의 훈련 방법을 따르며 L^(1:2) loss를 사용한다.

이러한 방법을 AR2Diff 라고 함.

추론 시 저온 샘플링(τ = 0.2) 활용, N(=8) 개의 샘플을 병렬로 디코딩하고 10개의 확산 디코딩 단계를 사용한다.

SUNDAE의 length predictor를 사용하지 않고 훈련 중 padding token을 통해 시퀀스 길이를 예측하도록 함.

최종 task에 대한 전문 훈련 대신 대규모 모델을 사전 훈련하고 downstream task에 적용하는 것을 목표로 한다.

또한 encoder-decoder vs. decoder-only, span corruption vs. prefix LM의 4가지 조합을 모두 테스트하고

모든 모델에서 Decoder-only, Prefix LM의 조합을 선택하였다.

Diffusion model은 SUNDAE, AR model은 그냥 표준 transformer 인 듯?

뭔가 결과가 이렇다고 말하기엔 상당히... 애매한... 결과...?

번역은 AR 미만 잡이고, Diffusion은 코딩(MBPP)에 강점을 보이는 모습?

디코딩 단계와 단계 당 샘플링 수를 늘리면 긴 형식의 코드 합성이 필요한 MBPP가 확실히 향상되지만 QA에는 미미하다.

속도는 Diffusion 쪽이 압도적으로 빠르다.

ST-MoE: Designing Stable and Transferable Sparse Expert Models (1)	2024.02.19
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (1)	2024.02.15
Data Selection for Language Models via Importance Resampling (DSIR) (0)	2024.02.15
Step-unrolled Denoising Autoencoders for Text Generation (SUNDAE) (0)	2024.02.06
Semi-Autoregressive Training Improves Mask-Predict Decoding (SMART) (0)	2024.02.05
Mask-Predict: Parallel Decoding of Conditional Masked Language Models (0)	2024.02.05