ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training

[arXiv](2020/10/21 version v3)

Abstract

N-stream self-attention을 통해 미래 n-gram을 예측하는 sequence-to-sequence model인 ProphetNet 제안

일반적인 다음 토큰 예측을 미래의 N개의 토큰을 동시에 예측하는 목표로 변경한다.

Main stream

일반적인 MHA, k번째 레이어의 hidden state에 속한 이전 토큰과 attention을 수행. (a)

1-st predicting stream

2-nd predicting stream

y_t 예측을 위한 g_t-1 계산과 y_t+1 예측을 위한 s_t-1 계산은 매우 유사하지만 각 초기화 토큰, 절대, 상대 위치 임베딩으로 구별된다.

또한 각 stream은 피라미터를 공유한다.

마스크 된 토큰을 복구하는 MASS의 학습 목표를 사용한다.

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases (0)	2024.03.07
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens (0)	2024.03.05
Speculative Streaming: Fast LLM Inference without Auxiliary Models (0)	2024.02.29
Linear Transformers with Learnable Kernel Functions are Better In-Context Models (ReBased) (1)	2024.02.28
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models (SPIN) (0)	2024.02.26
Generative Representational Instruction Tuning (GRIT) (0)	2024.02.26