본문 바로가기

논문 리뷰/Language Model

(148)
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models Abstract근거 순회 (traversal of rationale)라는 개념을 통해 LLM에 암시적으로 근거를 제공하여 이해 능력을 향상시키는 Meteor (Mamba-based traversal of rationales) 제안 [Github][arXiv](2024/05/27 version v2)   IntroductionMeteor는 근거 순회 (traversal of rationale)라는 개념 하에서 긴 순차적 근거를 이해하고 답을 도출할 수 있다.효율적인 모델 크기 (7B)에도 불구하고 다양한 벤치마크에서 상당한 발전을 보여준다.   Meteor: Mamba-based traversal of rationaleCurating Rationale수집한 2.1M Vision-Instruction QA ..
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models Abstract LMM(Large Multimodal Model)의 visual encoder를 ConvNeXt로 대체하여 계산을 줄이고 성능 향상 [Github][arXiv](2024/05/24 version v1)   ConvLLaVA ConvNeXt as Standalone Visual Encoder구성은 LLaVA와 동일하지만 visual encoder를 ViT에서 ConvNeXt로 교체했다. ConvNeXt는 ViT에 비해 1/4 미만의 visual token을 생성하여 중복성을 줄이고 LLM의 계산 부담을 완화한다. 추가로 고해상도 이미지에서 전처리의 필요성과 토큰 수를 줄이기 위해 stage를 추가하여 5-stage의 ConvNeXt 사용. Updating ConvNeXt is Essenti..
SimPO: Simple Preference Optimization with a Reference-Free Reward AbstractDPO보다 간단하면서도 더 효과적인 SimPO 제안 [Github][arXiv](2024/05/23 version v1)   IntroductionSimPO의 장점:Simplicity: DPO 및 다른 접근 방식에 비해 가볍고 구현하기 쉬움Significant performance advantage: 단순함에도 불구하고 최신 방법들보다 뛰어난 성능을 보여줌Minimal length exploitation: 응답 길이를 크게 늘리지 않음. (RLHF는 출력이 길어지는 편향이 있다.)    SimPO: Simple Preference Optimization DPO는 명시적인 보상 모델을 학습하는 대신 암묵적으로 보상을 reparameterize 하여 다음과 같은 목표를 사용한다. A Simpl..
RLHF Workflow: From Reward Modeling to Online RLHF Abstract선호도 모델을 구성하고, 인간 피드백을 근사하고, online iterative RLHF에 대해 재현하기 쉽고 자세한 레시피를 제공하는 것이 목표 [Github - Reward Modeling][Github - Online RLHF][arXiv](2024/05/13 version v1)   Introduction강화학습 튜토리얼:강화 학습 대체 뭐냐?REINFORCE — a policy-gradient based reinforcement Learning algorithmLLM을 정책 π로 간주하며, prompt x를 받아서 π(·|x)의 분포에서 응답 a를 생성한다.π0는 정책의 초기 상태를 가리킨다. RLHF의 핵심 구성요소는 다음과 같은 preference oracle이다. 일반적으로 ..
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning AbstractNon-parameter 연산자를 통해 LoRA와 동일한 피라미터 수를 유지하면서도 high-rank update를 달성하는 MoRA 제안 [Github][arXiv](2024/05/20 version v1)   Analysis the Influence of Low-rank Updating LoRA (Low-Rank Adaptation)는 기존 지식은 잘 활용하지만 새로운 지식을 기억해야 할 때는 FFT (Full-FineTuning)에 비해 성능이 떨어진다.    Method 핵심은 가능한 적은 피라미터를 유지하면서도 ∆W의 rank를 높이는 것이다.정사각 행렬을 사용하면 동일한 피라미터에서 가장 높은 rank를 가질 수 있다. Non-parameter 연산자를 통해 입출력 차원을 조절한..
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention AbstractMulti-Query Attention을 한 단계 발전시켜 레이어 간 KV cache를 공유하는 Cross-Layer Attention 제안 [arXiv](2024/05/21 version v1)   Cross-Layer Attention Background: Multi-Query Attention, Grouped-Query Attention  Sharing KV Activations Across Layers 단일 레이어 내에서 KV heads를 공유하는 것처럼, 레이어 간에도 공유할 것을 제안한다.그러한 아키텍처를 Cross-Layer Attention이라고 명명. 일부 레이어에서만 KV projection를 계산하고 projection이 없는 레이어는 이전 계층의 KV를 재사용한다. M..
LoRA Learns Less and Forgets Less AbstractCode&math에서 LoRA와 full-finetuning의 차이를 비교, 분석 [arXiv](2024/05/15 version v1)   IntroductionFull-finetuning은 code&math에서 LoRA보다 정확하고 샘플 효율적이다.LoRA는 강력한 정규화를 제공하여 source domain을 덜 잊어버린다.LoRA는 full-finetuning보다 하이퍼피라미터에 더 민감하다. 연구진은 결론적으로 IFT에 LoRA를 사용할 것을 추천했다. (All LoRA, 낮은 rank 채택)IFT의 좋은 성능, 높은 망각 특징을 LoRA가 보완해 줄 수 있기 때문이다.   Results6개 설정의 LoRA를 훈련한다. (module = [Attention, MLP, All], ra..
Chameleon: Mixed-Modal Early-Fusion Foundation Models Abstract사전 훈련된 각 modal-encoder와 LLM을 사용하는 대신 end-to-end 방식으로 처음부터 훈련된 mixed-modal model인 Chameleon 소개 [arXiv](2024/05/16 version v1) Chameleon은 Meta에서 이미 5개월 전에 훈련을 완료했으며 지금은 훨씬 더 발전했다고 한다.   Pre-Training  TokenizationImage tokenizerMake-A-Scene의 image tokenizer를 기반으로 이미지 패치를 8192개의 codebook vector 중 하나로 인코딩. Tokenizer8192개의 이미지 코드를 포함한 65536 vocabulary size의 BPE tokenizer. Pre-Training Data 사전 ..
Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models AbstractTokenizer vocabulary 내에서 훈련되지 않은 토큰을 감지하는 방법 개발 [Github][arXiv](2024/05/08 version v1) 검색해 보니까 Magikarp는 포켓몬스터의 잉어킹이었다. 해본 사람은 알겠지만 잉어킹은 가장 쓸모없는 포켓몬으로 유명하다.논문 제목은 '잉어킹 낚시'로 상당히 센스가 있다.https://bulbapedia.bulbagarden.net/wiki/Magikarp_(Pok%C3%A9mon) Magikarp (Pokémon) - Bulbapedia, the community-driven Pokémon encyclopediaGeneration I Red Blue Routes 6, 10, 11, 12, 13, 17, 18, 19, 20, 21, ..
xLSTM: Extended Long Short-Term Memory Abstract최신 LLM 기술을 활용하여 LSTM을 수십억 피라미터로 확장 [arXiv](2024/05/07 version v1)   IntroductionLSTMRNN의 일종으로 forget gate를 통해 이전 셀의 정보를 얼마나 잊을지, input gate를 통해 새로운 정보를 얼마나 반영할지, output gate를 통해 출력을 제어한다.    Extended Long Short-Term Memory Review of the Long Short-Term Memory sLSTMLSTM이 정보를 더 잘 조절할 수 있게 하기 위해 값을 0~1로 제한하는 sigmoid gate 대신 지수 게이트를 도입하고 안정화를 위해 normalizer state를 추가한다. 지수 함수의 큰 값은 overflow를..
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model AbstractMoE를 통한 경제적인 훈련, KV 캐시 압축을 통한 효율적인 추론이 특징인 236B (활성화 피라미터 21B) MoE 모델인 DeepSeek-V2 출시 (영어, 중국어) [Github][arXiv](2024/05/08 version v2)  Architecture 언급되지 않는 사소한 세부 사항은 DeepSeek-67B를 따른다.  Multi-Head Latent Attention: Boosting Inference Efficiency Preliminaries: Standard Multi-Head Attention    Low-Rank Key-Value Joint Compression MLA는 MHA보다 훨씬 적은 양은 KV 캐시를 저장하면서도 더 나은 성능을 제공한다. (MHA, MQ..
Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? Abstract새로운 사실적 지식을 학습하는 것이 LLM에 미치는 영향을 조사  [arXiv](2024/05/13 version v2)   Quantifying Knowledge in LLMs 새로운 지식이 포함된 fine-tuning dataset D가 모델의 성능에 미치는 영향을 평가하기 위해 주로 사실적 지식으로 구성된 D의 다양한 변형을 생성한다. D는 Wikidata의 삼중항(주제, 관계, 객체)을 QA 형식으로 변환하여 구성된다. E.g. '음바페는 PSG 소속이다.' → ('음바페는 어느 팀 소속인가요?', 'PSG') 질문에 대한 올바른 답변을 알고 있을 확률인 PCorrect를 측정하고 이를 통해 지식을 분류한다. 이른바 SliCK(Sampling-based Categorization o..