전체 글 (535) 썸네일형 리스트형 RL with KL penalties is better viewed as Bayesian inference LM fine-tuning을 강화 학습으로 보는 관점과 베이즈 추론으로 보는 관점 비교 [arXiv](Current version v2) Introduction Reinforcement learning(RL) from human feedback은 현재 Language Model(LM)의 정렬에 매우 많이 쓰이는 방식이다. 또한 그중에서도 흔하게 쓰이는 방식인 KL-regularised RL에 대한 분석을 제공하고 이를 베이즈 추론으로 보는 대안적인 관점을 제시한다. 결론적으로 RL은 LM fine-tuning 같은 문제에 대한 적절한 프레임워크가 아니라고 한다. Fine-tuning language models using standard RL and distribution collapse X를 토큰의 시.. WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences BingAI랑 똑같은 느낌? 처음에 되게 신기했는데 이런 원리였구만? [Github] [arXiv](Current version v1) Abstract General Language Model(GLM)을 백본으로 하는 웹 검색 기반 질의응답 시스템인 WebGLM 제안 Introduction 최근 WebGPT와 같이 웹 검색과 같은 외부 지식을 활용하여 LLM을 구축하는 데 노력이 집중되고 있다. 하지만 WebGPT 방법은 실제 배포와는 거리가 먼데, 잘 작성된 답변 및 선호도 라벨링에 대한 전문가 수준 주석에 의존하므로 상당한 비용, 시간 및 교육이 필요하다. WebGPT-13B가 500 토큰 프롬프트에 응답하는 데 약 31초로 너무 느리다. WebGLM: An LLM-augmented Retriever.. Unsupervised Dense Information Retrieval with Contrastive Learning (Contriever) [Github] [arXiv](Current version v4) Abstract 비지도 dense retriever의 훈련 방법으로 대조 학습을 탐구한다. Dense Retriever : e.g. DPR - Question과 검색으로 얻은 document를 BERT에 통과시켜 [CLS] Token을 계산한 후 내적을 통해 유사도를 구함 Method 쿼리 q와 문서 d가 주어지면 인코더 f를 통과한 후 내적으로 score를 구함. Contrastive learning Positive doc k+, 쿼리 q, negative docs ki가 주어지면 다음과 같이 contrastive InfoNCE loss 정의: Building positive pairs from a single document 대조 학습.. GLM-130B: An Open Bilingual Pre-trained Model 대규모 이중언어 오픈소스 모델. 훈련 과정을 전부 공개하였다. [Github] [arXiv](Current version v2) Abstract GPT-3만큼 우수한 이중언어(영어, 중국어)로 pre-training 된 대규모 오픈소스 언어 모델인 GLM-130B 소개. Introduction 100B의 초대형 모델을 훈련하는 데는 많은 어려움이 있다. 이 분야의 선구자의 GPT-3은 대중에게 투명하게 공개되지 않았다. 이 논문에서는 GLM-130B를 훈련하며 얻은 성공적인 부분, 실패한 옵션 등 훈련 과정을 공개한다. 다른 초대형 모델들과의 차이: GPT style architecture 대신 General Language Model (GLM) 알고리즘을 채택하였다. 또한 많은 사람들이 LLM 연구를 .. Memory-Efficient Pipeline-Parallel DNN Training (PipeDream-2BW, PipeDream-Flush) PipeDream의 메모리 부담을 개선 [Github] [arXiv](Current version v3) Abstract 메모리 효율적인 파이프라인 병렬성을 지원하는 시스템인 PipeDream-2BW 제안 Introduction 이전의 파이프라인 모델 병렬화: [GPipe] [PipeDream] GPipe는 유휴 시간이 많으며, PipeDream은 가중치 저장으로 인해 메모리 제약이 크다는 단점이 있다. PipeDream-2BW의 이점: 유휴 시간을 유발하는 pipeline flush를 피하면서 메모리 공간을 줄이는 double-buffered weight updates (2BW) 효과적인 병렬화 체계를 생성하는 PipeDream-2BW planner PipeDream-2BW System Design D.. PipeDream: Fast and Efficient Pipeline Parallel DNN Training 1F1B 알고리즘을 통해 유휴시간 없는 파이프라인 병렬화 [Github] [arXiv](Current version v1) Abstract DNN에서 파이프라인 병렬화 training system인 PipeDream 제안 Introduction 파이프라인, 모델 병렬 처리, 데이터 병렬처리의 조합을 pipeline-parallel training이라고 부른다. (PP) 데이터 병렬 훈련보다 worker 간 통신이 95% 적다고 한다. 모든 레이어를 몇 개의 stage로 나눈다. PipeDream의 설계: 알고리즘을 통해 잘못된 partitioning으로 stage 간 작업량이 편향되는 것을 방지 모든 작업자를 바쁜 상태로 유지하기 위한 양방향 훈련 특정 미니배치에 대한 역방향 전달이 해당 순방향 전달에 .. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism [Github] [arXiv](Current version v5) Abstract 신경망 계층 여러 가속기에 분산하여 다양한 작업에 대한 효율적인 규모 확장을 가능케 하는 라이브러리인 GPipe 제안 The GPipe Library Interface 네트워크는 L 레이어를 가지고 있고, 각 레이어는 순전파 함수 f, 피라미터 w로 이루어져 있다. GPipe는 L개의 레이어를 K개의 파티션으로 분할하고, i ~ j 레이어를 나타내는 파티션 p는 피라미터 wi, wi+1,..., wj, 순전파 함수 F, 역전파 함수 B, 비용 추정기 C를 가진다. Algorithm k번째 셀을 k번째 가속기에 배치. 미니 배치를 나눈 각 마이크로 배치에 대해 gradient가 누적되고 미니 배치가 완전히 끝났을 때 피라미터.. Sparse Fine-tuning for Inference Acceleration of Large Language Models 희소 모델을 증류 방식을 통해 더 높은 sparse level로 fine-tuning [Github] [arXiv](Current version v2) Abstract LLM의 sparse fine-tuning에서 더 높은 희소성에서도 정확한 복구를 가능하게 하는 증류 손실의 변형인 SquareHead 소개 Introduction 순진한 sparse fine-tuning은 LLM에 적용하기 어렵다. 높은 희소성에서 발산 발생 Downstream 작업을 위한 적은 양의 fine-tuning data 이를 해결하기 위해 SquareHead 손실을 사용하여 SparseGPT를 통해 얻은 희소 모델을 fine-tuning 한다. Methodology Sparse Fine-tuning Sparsification .. SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot Inverse hessian matrix 재사용, 유효한 가중치만 업데이트 [Github] [arXiv](Current version v3) Abstract 매우 큰 모델 규모에서 효율적으로 작동하는 최초의 one-shot 가지치기 방법인 SparseGPT 제안 Introduction Approximate sparse regression solver를 통해 가지치기 문제를 해결한다. 50~60%의 가지치기를 시행해도 정확도가 조금밖에 떨어지지 않는다. 큰 모델일수록 희소성을 도입해도 성능이 떨어지지 않는다. 또한 본 논문에서 제안하는 기술은 양자화와 함께 사용될 수도 있다. SparseGPT의 주목할만한 속성 중 하나는 각 레이어의 입력-출력이 보존되도록 설계되어 완전히 로컬이라는 것이다. The Spa.. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers 양자화 일괄 처리, Cholesky decomposition [Github] [arXiv](Current version v2) Abstract 효율적인 GPT 모델 가중치 양자화 방법인 GPTQ 제안 Background [Optimal Brain Compression] (OBC, OBQ) [WoodFisher] 위의 두 논문에 대한 사전 지식이 있는 것을 전제로 작성했습니다. The GPTQ Algorithm Step 1: Arbitrary Order Insight OBQ에서는 양자화 오류를 기반으로 양자화 순서를 결정한다. 하지만 연구진은 실험적으로 대규모 모델에서는 고정된 양자화 순서와 OBQ의 방법이 거의 차이가 없다는 것을 알아냈다. 모든 행에서 가중치를 순서대로 양자화하면, 각 행에서 H-1이 .. Loss Aware Post-training Quantization (LAPQ) [Github] [arXiv](Current version v2) Abstract낮은 비트폭 양자화에서 2차 최적화를 통해 Layer-wise quantization을 가능하게 함 Loss landscape of quantized DNNsM비트, quantization step size ∆를 고려한 양자화: Step size ∆를 통해 x의 범위를 [-c, c]로 제한함:ReLU 활성화의 출력일 경우: 이 논문에서 ∆는 값으로도 쓰이고 양자하 된 인스턴스에 대한 표시라고 해야 하나 암튼 그런 개념으로도 쓰이고 미분에서 원래의 용도로도 쓰인다. 좀 헷갈림... Separable optimization 손실함수 L은 변수 세트 v(weights, activations, etc.)에 의존하며, 양자화 노이즈를.. Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and Pruning (OBC) 효율적인 전역 양자화, 양자화∙가지치기 통합 [Github] [arXiv](Current version v2) Abstract 정확한 훈련 모델이 주어지고 적은 양의 교정 입력 데이터만을 기반으로 재훈련 없이 압축해야 하는 까다로운 one-shot/post-training 설정에서 DNN 압축 문제를 고려한다. 가지치기와 양자화를 통해 post-trining의 실용적 성능을 크게 개선하는 새로운 압축 프레임워크를 소개한다. Introduction 기존 가지치기/양자화 방법들은 점진적인 가지치기와 재훈련이 필요하기 때문에 post-training 환경에 적용할 수 없었다. 전역 압축의 하위 문제인 layer-wise 압축에서 시작한다. 우리의 목표는 입력 X, 가중치 W에 대해 다음과 같은 압축된 Ŵ를 .. 이전 1 ··· 24 25 26 27 28 29 30 ··· 45 다음