Randomized Positional Encodings Boost Length Generalization of Transformers

Abstract

훈련 시 훈련 데이터의 최대 길이보다 긴 위치 인코딩을 시뮬레이션하여 추론에 적용할 수 있는 Randomized Positional Encodings 제안

[arXiv](2023/05/26 version v1)

훈련 중 최대 시퀀스 길이를 N이라 하자. 또한 N 보다 큰 임의의 L을 지정한다.

예를 들어, N = 5, L = 20.

그리고 훈련 시에 배치마다 L에서 N개의 인덱스를 샘플링하고 → [1, 4, 10, 11, 17]

이 위치 정보를 원래 위치 [1, 2, 3, 4, 5] 대신 사용한다.

이 방법을 사용하면 추론 시 N 초과 L 이하의 위치에 대해 적응할 수 있다.

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions (0)	2024.06.11
GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning (1)	2024.06.11
Transformers Can Do Arithmetic with the Right Embeddings (Abacus Embeddings) (2)	2024.05.29
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models (1)	2024.05.29
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models (0)	2024.05.28
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models (0)	2024.05.28