본문 바로가기

논문 리뷰/Language Model

(148)
Chain-of-Thought Reasoning Without Prompting (CoT-decoding) [arXiv](2024/02/15 version v1) Abstract 단순히 decoding process를 변경함으로써 prompting 없이 CoT reasoning path를 도출할 수 있는 CoT-decoding 소개 Introduction 입력은 "Q:[question]\nA:" 형식이다. Greedy decoding 대신 대안적인 경로를 탐색하며 CoT가 디코딩 경로에 존재할 때 더 높은 신뢰도를 갖는 경향이 있다. Chain-of-Thought (CoT) Decoding The Presence of CoT Paths during Decoding Greedy decoding 모델은 즉각적인 문제 해결 경향이 있으며, 이는 일반적으로 정확도가 낮다. 반면에 첫 번째 디코딩 단계에서 top-k ..
World Model on Million-Length Video And Language With RingAttention (LargeWorldModel) [Project Page] [Github] [arXiv](2024/02/13 version v1) Abstract Ring attention을 활용하여 1M 길이의 context에 대한 multi-modal modeling이 가능한 LargeWorldModel(LWM) 제안 Introduction Ring Attention을 통해 context 크기를 1M까지 점진적으로 늘림 Video, image, text 혼합에 대한 훈련 책에서 QA dataset을 생성 Overview Stage I: Learning Long-Context Language Models Long-context LM인 LWM-Text, LWM-Text-Chat 개발 Extending Context Ring attention + Fla..
More Agents Is All You Need [Github] [arXiv](2024/02/03 version v1) Abstract 간단한 sampling 및 voting을 통해 LLM의 성능 향상 제목어그로 Method ~ 5 : 단일 또는 여러 LLM agent를 통해 쿼리 x에 대한 N개의 샘플 생성. 6 ~ 13 : 각각의 샘플에 대해 다른 샘플과의 유사도를 계산. 14 ~ 15 : 누적 유사도가 가장 높은 답변을 채택. Experimental Results 성능 향상됐어요. 다른 유사 방법과 비교
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [Github] [arXiv](2024/02/06 version v1) Abstract 고정밀 추론이 가능한 1-bit post-training quantization (PTQ) 방식인 BiLLM 제안 Introduction 두 가지 중요한 관찰: 가중치의 Hessian matrix는 긴 꼬리 분포를 보인다. 가중치 크기의 density distribution은 종 모양 패턴을 따른다. 이는 대부분의 가중치가 중복적이고 소수의 가중치가 중요한 역할을 한다는 것을 의미하며 공격적인 양자화를 가능하게 한다. 두 가지 핵심 설계: Hessian matrix를 통해 유의미한 가중치의 복원을 극대화 비돌출 가중치에 대한 최적의 분할 이진화 전략 일반적인 네트워크 이진화: Method Salient Weight B..
Self-Discover: Large Language Models Self-Compose Reasoning Structures [arXiv](2024/02/06 version v1) Abstract 복잡한 추론 문제를 해결하기 위해 LLM이 작업 내재적 추론 구조를 스스로 발견하는 Self-Discover를 소개한다. Chain of Thought (CoT), CoT-Self-Consistency와 같은 방법들보다 10~40배 적은 컴퓨팅 능력을 사용하면서 성능은 더 뛰어나다. lntroduction 아래 그림과 같이 LLM, task examples without labels, 문제 해결 휴리스틱을 나타내는 일련의 자연어 atomic reasoning modules (e.g. 'breakdown into sub tasks', 'critical thinking', ' think step by step')이 주어지면, LLM이 추..
OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models [Github] [arXiv](2024/01/29 version v1) Abstract Routing mechanism을 심층적으로 분석하고 OpenMoE를 open-source로 출시 Designing OpenMoE Pre-training Dataset: More Code than Usual 저자는 코드 데이터가 매우 중요하다고 강조한다. 복잡한 추론 능력을 향상시킬 수 있음 모호한 자연어와 달리 항상 명확함 코드 데이터인 The Stack Dedup이 데이터의 50%를 차지한다. Model Architecture: Decoder-only ST-MoE Tokenizer 대규모 다국어 vocabulary를 갖추고 out-of-vocab token을 더 잘 지원하는 umT5 tokenizer를 사용한다. ..
ST-MoE: Designing Stable and Transferable Sparse Expert Models [Github] [arXiv](2022/04/29 version v2) Abstract MoE의 안정적인 훈련을 위한 Router z-loss 제안 Background Mixture of Experts (MoE) 라우터는 변수 W를 통해 softmax로 정규화되는 logits h(x)를 생성한다. Stabilizing Training of Sparse Models Sparse model은 훈련이 불안정하다. 품질을 저하시키지 않고 안정적으로 훈련하는 방법에 대한 연구. Stability and quality tradeoffs when removing multiplicative interactions 두 가지 multiplicative interaction을 제거 GEGLU RMS Scale Paramet..
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models [Github] [arXiv](2024/02/06 version v2) Contributions Math Pre-Training at Scale Common Crawl에서 세심하게 설계된 데이터 선택 파이프라인을 통해 DeepSeekMath corpus 구축 DeepSeekMath-Base 7B를 통해 고품질 데이터로 훈련된 작은 모델이 강력한 성능을 달성할 수 있음을 보여줌 코드에 대한 훈련은 수학적 추론 능력에 도움이 된다 arXiv 논문에 대한 훈련은 많은 수학 관련 작업에서 일반적이지만 본문에서는 별 효과가 없었다 Exploration and Analysis of Reinforcement Learning 효과적인 강화 학습 알고리즘인 Group Relative Policy Optimization ..
Data Selection for Language Models via Importance Resampling (DSIR) [arXiv](2023/11/18 version v3) Introduction 적절한 사전 훈련 데이터셋의 선택은 중요하다. 대규모 raw unlabeled dataset에서 원하는 target distribution에 맞는 데이터 부분 집합을 선택하기 위해 Data Selection with Importance Resampling (DSIR)을 제안한다. Setup 목표 예제 x'1, ... , x'n이 주어지면 원시 데이터셋 x1, ... , xN에서 k개의 예제를 선택하는 것을 목표로 한다. Selection via heuristic classification 일반적으로 사용되는 휴리스틱 분류: Data Selection with Importance Resampling 1. 각각의 분포에서 추출된 ..
Transfer Learning for Text Diffusion Models (AR2Diff) [arXiv](2024/01/30 version v1) Introduction Text Diffusion과 AR language model 비교 고전적인 AR 방법의 관성에서 오는 text diffusion model의 진입 장벽을 낮추기 위해 사전 훈련된 AR 모델을 확산 모델로 변환하는 AR2Diff 방법을 조사 구글 딥마인드 논문이라 기대했는데 별 내용은 없어요. Experiments Diffusion implementation 표준 transformer의 사전 훈련된 AR model checkpoint에서 SUNDAE의 훈련 방법을 따르며 L(1:2) loss를 사용한다. 이러한 방법을 AR2Diff 라고 함. 추론 시 저온 샘플링(τ = 0.2) 활용, N(=8) 개의 샘플을 병렬로 디코딩하고 ..
Step-unrolled Denoising Autoencoders for Text Generation (SUNDAE) [Github] [arXiv](2022/04/19 version v3, 2021 v1) 이거 보고 보면 이해 더 잘될 듯? Mask-Predict, SMART Abstract Unrolled denoising을 통해 non-AR 텍스트 생성이 가능한 SUNDAE(Step-unrolled Denoising Autoencoder) 순대 아니고 미국에서 일요일에만 팔던 아이스크림 '선데이' 임 Method Corruption function Training with Unrolled Denoising Sampling Target Length Prediction Corruption function 예시: Training with Unrolled Denoising SMART 처럼 2단계 이상의 다단계 corrupt..
Semi-Autoregressive Training Improves Mask-Predict Decoding (SMART) [arXiv](2020/01/23 version v1) Abstract Mask-Predict의 반복 과정을 개선한 SMART 제안 Semi-Autoregressive Training 필독!!! Mask-Predict Mask-Predict: Parallel Decoding of Conditional Masked Language Models [Github] [arXiv](2019/09/04 version v2) Abstract Masked token을 병렬로 디코딩하여 텍스트 생성 Conditional Masked Language Models X, Yobs가 주어지면 Ymask에 속한 토큰들의 개별 확률을 예측해야 한다. Architecture Causal ma ostin.tistory.com Mask-..