본문 바로가기

논문 리뷰/Language Model

Randomized Positional Encodings Boost Length Generalization of Transformers

Abstract

훈련 시 훈련 데이터의 최대 길이보다 긴 위치 인코딩을 시뮬레이션하여 추론에 적용할 수 있는 Randomized Positional Encodings 제안

 

[Github]

[arXiv](2023/05/26 version v1)

 

 

 

Randomized Positional Encodings

 

훈련 중 최대 시퀀스 길이를 N이라 하자. 또한 N 보다 큰 임의의 L을 지정한다.

예를 들어, N = 5, L = 20.

 

그리고 훈련 시에 배치마다 L에서 N개의 인덱스를 샘플링하고 → [1, 4, 10, 11, 17]

이 위치 정보를 원래 위치 [1, 2, 3, 4, 5] 대신 사용한다.

 

이 방법을 사용하면 추론 시 N 초과 L 이하의 위치에 대해 적응할 수 있다.