본문 바로가기

논문 리뷰

(452)
Transformers Can Do Arithmetic with the Right Embeddings (Abacus Embeddings) Abstract각 숫자의 자릿수를 인코딩하는 임베딩을 추가하여 산술 작업의 능력을 획기적으로 향상(Abacus는 주판을 의미한다.) [Github][arXiv](2024/05/27 version v1)  Hacker news에서 엄청난 토론이 열렸다.  Achieving Length Generalization for Addition 무작위 자릿수의 두 숫자를 더하는 작업에 대해 3가지 범주로 평가하며 In-Distribution: 훈련에 나타난 최대 자릿수 이내Out-of-Distribution: 훈련 최대 자릿수보다 크지만 100자리 이하Extreme OOD: 100자리 초과 Abacus Embeddings Help Align Digits  Randomized Positional Encodings에서 ..
End-to-end Algorithm Synthesis with Recurrent Networks: Logical Extrapolation Without Overthinking (DeepThinking Systems) Abstract반복 아키텍처, 반복 알고리즘을 통해 작은 문제를 해결할 수 있는 알고리즘을 반복하여 더 크고 복잡한 문제를 해결할 수 있도록 알고리즘 외삽을 수행한다. [Github][arXiv](2022/10/14 version v3)   Methods  2, 3번째 그림처럼 같은 블록이 여러 번 반복되는 아키텍처를 생각해 보자. 임베딩 함수는 p, 출력 헤드는 h, 블록의 반복을 다음과 같이 표기하고 블록의 출력은 이렇게 표기한다. 전체 네트워크를 간단하게 표기할 수 있다. Recall architectures 문제 해결을 위해 오랫동안 생각할 때, 우리는 종종 질문이나 작업을 다시 검토한다.이에 착안하여 이전 블록의 출력에 입력을 연결하여 제공. (차원을 맞추기 위한 컨볼루션 레이어 사용) Prom..
Randomized Positional Encodings Boost Length Generalization of Transformers Abstract훈련 시 훈련 데이터의 최대 길이보다 긴 위치 인코딩을 시뮬레이션하여 추론에 적용할 수 있는 Randomized Positional Encodings 제안 [Github][arXiv](2023/05/26 version v1)   Randomized Positional Encodings  훈련 중 최대 시퀀스 길이를 N이라 하자. 또한 N 보다 큰 임의의 L을 지정한다.예를 들어, N = 5, L = 20. 그리고 훈련 시에 배치마다 L에서 N개의 인덱스를 샘플링하고 → [1, 4, 10, 11, 17]이 위치 정보를 원래 위치 [1, 2, 3, 4, 5] 대신 사용한다. 이 방법을 사용하면 추론 시 N 초과 L 이하의 위치에 대해 적응할 수 있다.
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models AbstractLatent attention layer, contrastive instruction-tuning을 통해 최첨단 성능의 텍스트 임베딩 모델인 NV-Embed 개발 [Hugging Face model][arXiv](2024/05/27 version v1)   Method Bidirectional Attention 표현 학습을 향상시키기 위해 대조 학습 중에 causal attention mask를 제거한다. Latent Attention Layer일반적으로 토큰 시퀀스의 임베딩을 얻는 방법은 2가지가 있다. 시퀀스를 mean pooling 하거나 마지막 토큰의 임베딩을 얻는 것이다. 하지만 평균 풀링은 중요한 정보를 희석할 수 있고, 임베딩은 후반 토큰에 의존하는 recency bias..
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models Abstract근거 순회 (traversal of rationale)라는 개념을 통해 LLM에 암시적으로 근거를 제공하여 이해 능력을 향상시키는 Meteor (Mamba-based traversal of rationales) 제안 [Github][arXiv](2024/05/27 version v2)   IntroductionMeteor는 근거 순회 (traversal of rationale)라는 개념 하에서 긴 순차적 근거를 이해하고 답을 도출할 수 있다.효율적인 모델 크기 (7B)에도 불구하고 다양한 벤치마크에서 상당한 발전을 보여준다.   Meteor: Mamba-based traversal of rationaleCurating Rationale수집한 2.1M Vision-Instruction QA ..
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models Abstract LMM(Large Multimodal Model)의 visual encoder를 ConvNeXt로 대체하여 계산을 줄이고 성능 향상 [Github][arXiv](2024/05/24 version v1)   ConvLLaVA ConvNeXt as Standalone Visual Encoder구성은 LLaVA와 동일하지만 visual encoder를 ViT에서 ConvNeXt로 교체했다. ConvNeXt는 ViT에 비해 1/4 미만의 visual token을 생성하여 중복성을 줄이고 LLM의 계산 부담을 완화한다. 추가로 고해상도 이미지에서 전처리의 필요성과 토큰 수를 줄이기 위해 stage를 추가하여 5-stage의 ConvNeXt 사용. Updating ConvNeXt is Essenti..
Diffusion for World Modeling: Visual Details Matter in Atari (DIAMOND) AbstractDiffusion world model에서 훈련된 RL agent인 DIAMOND (DIffusion As a Model Of eNvironment Dreams) 소개  [Github][arXiv](2024/05/20 version v1)    Introduction실제 환경이 아닌 diffusion model이 생성한 world에서 RL agent를 훈련한다. DM은 이전 장면과 agent의 행동을 반영하여 다음 장면을 생성한다.    Method 알고리즘: 먼저 정책 πϕ를 통해 실제 환경에서 데이터 수집→ World model인 diffusion model 업데이트→ 보상 및 종료를 담당하는 모델 R (LSTM) 업데이트→ Actor-Critic model로써 πϕ, Vϕ 업데이트  ..
SimPO: Simple Preference Optimization with a Reference-Free Reward AbstractDPO보다 간단하면서도 더 효과적인 SimPO 제안 [Github][arXiv](2024/05/23 version v1)   IntroductionSimPO의 장점:Simplicity: DPO 및 다른 접근 방식에 비해 가볍고 구현하기 쉬움Significant performance advantage: 단순함에도 불구하고 최신 방법들보다 뛰어난 성능을 보여줌Minimal length exploitation: 응답 길이를 크게 늘리지 않음. (RLHF는 출력이 길어지는 편향이 있다.)    SimPO: Simple Preference Optimization DPO는 명시적인 보상 모델을 학습하는 대신 암묵적으로 보상을 reparameterize 하여 다음과 같은 목표를 사용한다. A Simpl..
RLHF Workflow: From Reward Modeling to Online RLHF Abstract선호도 모델을 구성하고, 인간 피드백을 근사하고, online iterative RLHF에 대해 재현하기 쉽고 자세한 레시피를 제공하는 것이 목표 [Github - Reward Modeling][Github - Online RLHF][arXiv](2024/05/13 version v1)   Introduction강화학습 튜토리얼:강화 학습 대체 뭐냐?REINFORCE — a policy-gradient based reinforcement Learning algorithmLLM을 정책 π로 간주하며, prompt x를 받아서 π(·|x)의 분포에서 응답 a를 생성한다.π0는 정책의 초기 상태를 가리킨다. RLHF의 핵심 구성요소는 다음과 같은 preference oracle이다. 일반적으로 ..
Your Transformer is Secretly Linear AbstractTransformer decoder layer 간의 높은 선형성을 식별하고 이를 활용할 수 있는 방법 제안 [arXiv](2024/05/19 version v1)   Analysis of Pretrained Architectures Linearity Score 선형성 점수는 정규화된 행렬 X̃, Ỹ가 있을 때, 선형 변환 A를 적용하여 차이의 최솟값을 구하고 그것을 1에서 뺀다. 레이어 입, 출력 임베딩 세트에 대해 선형성 점수를 계산한다.놀랍게도 거의 모든 transformer decoder의 선형성 점수가 1에 가까웠다. Residual stream을 빼면 선형성이 상당히 감소했다. Linearity Dynamics at Pretraining and Fine-tuning Pre-tr..
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning AbstractNon-parameter 연산자를 통해 LoRA와 동일한 피라미터 수를 유지하면서도 high-rank update를 달성하는 MoRA 제안 [Github][arXiv](2024/05/20 version v1)   Analysis the Influence of Low-rank Updating LoRA (Low-Rank Adaptation)는 기존 지식은 잘 활용하지만 새로운 지식을 기억해야 할 때는 FFT (Full-FineTuning)에 비해 성능이 떨어진다.    Method 핵심은 가능한 적은 피라미터를 유지하면서도 ∆W의 rank를 높이는 것이다.정사각 행렬을 사용하면 동일한 피라미터에서 가장 높은 rank를 가질 수 있다. Non-parameter 연산자를 통해 입출력 차원을 조절한..
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention AbstractMulti-Query Attention을 한 단계 발전시켜 레이어 간 KV cache를 공유하는 Cross-Layer Attention 제안 [arXiv](2024/05/21 version v1)   Cross-Layer Attention Background: Multi-Query Attention, Grouped-Query Attention  Sharing KV Activations Across Layers 단일 레이어 내에서 KV heads를 공유하는 것처럼, 레이어 간에도 공유할 것을 제안한다.그러한 아키텍처를 Cross-Layer Attention이라고 명명. 일부 레이어에서만 KV projection를 계산하고 projection이 없는 레이어는 이전 계층의 KV를 재사용한다. M..