본문 바로가기

논문 리뷰/Language Model

(148)
VideoPoet: A Large Language Model for Zero-Shot Video Generation 지금까지 본 비디오 생성 모델 중에 움직임이 제일 부드러운 것 같다. [Google Research Blog] [Project Page] [arXiv](Current version v1) Abstract Multi-modal 입력을 처리하고 고품질 audio, video를 합성할 수 있는 VideoPoet 제안 Introduction 본 논문에서는 비디오 생성에서 LLM의 적용을 조사한다. VideoPoet은 각 양식을 이산 토큰으로 출력하는 decoder-only LLM architecture를 사용한다. VideoPoet의 훈련은 pretraining → task-adaptation으로 구성되며 별도의 확산 모델에 의존하지 않고 단일 LLM으로 통합된다. LLM인 VideoPoet은 zero-shot..
GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation 대화 흐름과 상황에 따라 자연스럽게 video caption 생성 [Project Page] [Github] [arXiv](Current version v1) Abstract LLM에 비디오 이해와 생성 능력을 부여하는 multi-model framework인 GPT4Video 제안 Introduction 기존의 Multi-modal Large Language Model은 multi-modal 처리에 중점을 두고 이해와 생성 능력은 부족하다. MiniGPT-5, NExt-GPT와 같은 모델들은 generative voken을 통해 다양한 양식으로 확장하였지만 generative voken은 LLM의 잠재력을 완전히 활용하지 못하며, 모델을 업그레이드하려는 경우 재교육을 해야 하는 등 유연성이 부족하다. ..
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (MoE) Feedforward network를 하위 집합인 expert로 나누어 소수의 적합한 expert만이 계산에 참여함 [Github] [arXiv](Current version v1) Abstract Feedfoward의 하위 네트워크인 Sparsely-Gated Mixture-of-Experts layer (MoE)를 통해 약간의 계산 효율성 손실만으로 모델 용량을 1000배 이상 향상하고 성능을 크게 향상함. The Structure of The Mixture-of-Experts Layer MoE는 n개의 전문가 네트워크 세트와 희소 벡터를 출력하는 gating network G로 구성된다. i번째 expert의 출력을 Ei(x), gating output을 G(x)라 하면 MoE의 출력은 다음과 같다..
Cramming: Training a Language Model on a Single GPU in One Day 초저비용 환경에서 최대의 학습 효율 내기 인용 논문을 그냥 지나칠 수 없는 성격 때문에 리뷰했지만 사실 별로 중요한 논문은 아닌... [Github] [arXiv](Current version v1) [BERT] Abstract 최근에 언어 모델링 추세는 성능 향상에 집중하고 있으며, 이는 실무자가 언어 모델을 훈련하기 불가능한 환경을 초래했다. 본문에서는 단일 GPU에서 하루 동안 masked language modeling으로 처음부터 훈련된 BERT류 모델로 달성할 수 있는 downstream performance를 조사한다. Tying Our Hands Behind Our Back: A Setup with Limited Compute Masked language modeling으로 처음부터 훈련되..
Instruction Tuning with Human Curriculum (CORGI) 인간의 학습 커리큘럼을 언어 모델에 적용 [Github] [arXiv](Current version v1) [Online Demo] Chatbot UI openchat.team Abstract 인간 교육의 점진적이고 조직적인 특성을 모방하는 고도로 구조화된 합성 데이터 세트와 이를 이용한 교육 프레임워크인 CORGI(Cognitively hardest instructions) 제안 Introduction 언어 모델을 다양한 교육 기관으로부터 지식을 점진적으로 습득하려는 고등학생으로 개념화한다. Educational Stage: 초등 개념에서부터 복잡한 개념을 순차적으로 마스터 Cognitive Hierarchy: 각 개념에 대한 이해를 점진적으로 심화 CORGI(Cognitively hardest ins..
OpenChat: Advancing Open-source Language Models with Mixed-Quality Data C-RLFT를 통해 SFT dataset으로도 online fine-tuning을 가능하게 함 [Github] [arXiv](Current version v1) [Online Demo] Chatbot UI openchat.team Abstract 혼합 품질 데이터를 사용하여 LLM을 학습할 수 있는 C-RLFT(Conditioned-Reinforcement Learning Fine-Tuning) 제안, 그리고 이를 활용하여 학습한 chatbot인 OpenChat 소개 Introduction LLM의 fine-tuning에는 supervised fine-tuning(SFT), reinforcement learning fine-tuning(RLFT) 방법이 있다. SFT dataset에는 전문가 데이터와 차..
RL with KL penalties is better viewed as Bayesian inference LM fine-tuning을 강화 학습으로 보는 관점과 베이즈 추론으로 보는 관점 비교 [arXiv](Current version v2) Introduction Reinforcement learning(RL) from human feedback은 현재 Language Model(LM)의 정렬에 매우 많이 쓰이는 방식이다. 또한 그중에서도 흔하게 쓰이는 방식인 KL-regularised RL에 대한 분석을 제공하고 이를 베이즈 추론으로 보는 대안적인 관점을 제시한다. 결론적으로 RL은 LM fine-tuning 같은 문제에 대한 적절한 프레임워크가 아니라고 한다. Fine-tuning language models using standard RL and distribution collapse X를 토큰의 시..
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences BingAI랑 똑같은 느낌? 처음에 되게 신기했는데 이런 원리였구만? [Github] [arXiv](Current version v1) Abstract General Language Model(GLM)을 백본으로 하는 웹 검색 기반 질의응답 시스템인 WebGLM 제안 Introduction 최근 WebGPT와 같이 웹 검색과 같은 외부 지식을 활용하여 LLM을 구축하는 데 노력이 집중되고 있다. 하지만 WebGPT 방법은 실제 배포와는 거리가 먼데, 잘 작성된 답변 및 선호도 라벨링에 대한 전문가 수준 주석에 의존하므로 상당한 비용, 시간 및 교육이 필요하다. WebGPT-13B가 500 토큰 프롬프트에 응답하는 데 약 31초로 너무 느리다. WebGLM: An LLM-augmented Retriever..
Unsupervised Dense Information Retrieval with Contrastive Learning (Contriever) [Github] [arXiv](Current version v4) Abstract 비지도 dense retriever의 훈련 방법으로 대조 학습을 탐구한다. Dense Retriever : e.g. DPR - Question과 검색으로 얻은 document를 BERT에 통과시켜 [CLS] Token을 계산한 후 내적을 통해 유사도를 구함 Method 쿼리 q와 문서 d가 주어지면 인코더 f를 통과한 후 내적으로 score를 구함. Contrastive learning Positive doc k+, 쿼리 q, negative docs ki가 주어지면 다음과 같이 contrastive InfoNCE loss 정의: Building positive pairs from a single document 대조 학습..
GLM-130B: An Open Bilingual Pre-trained Model 대규모 이중언어 오픈소스 모델. 훈련 과정을 전부 공개하였다. [Github] [arXiv](Current version v2) Abstract GPT-3만큼 우수한 이중언어(영어, 중국어)로 pre-training 된 대규모 오픈소스 언어 모델인 GLM-130B 소개. Introduction 100B의 초대형 모델을 훈련하는 데는 많은 어려움이 있다. 이 분야의 선구자의 GPT-3은 대중에게 투명하게 공개되지 않았다. 이 논문에서는 GLM-130B를 훈련하며 얻은 성공적인 부분, 실패한 옵션 등 훈련 과정을 공개한다. 다른 초대형 모델들과의 차이: GPT style architecture 대신 General Language Model (GLM) 알고리즘을 채택하였다. 또한 많은 사람들이 LLM 연구를 ..
Sparse Fine-tuning for Inference Acceleration of Large Language Models 희소 모델을 증류 방식을 통해 더 높은 sparse level로 fine-tuning [Github] [arXiv](Current version v2) Abstract LLM의 sparse fine-tuning에서 더 높은 희소성에서도 정확한 복구를 가능하게 하는 증류 손실의 변형인 SquareHead 소개 Introduction 순진한 sparse fine-tuning은 LLM에 적용하기 어렵다. 높은 희소성에서 발산 발생 Downstream 작업을 위한 적은 양의 fine-tuning data 이를 해결하기 위해 SquareHead 손실을 사용하여 SparseGPT를 통해 얻은 희소 모델을 fine-tuning 한다. Methodology Sparse Fine-tuning Sparsification ..
Ring Attention with Blockwise Transformers for Near-Infinite Context Block-wise attention의 병렬화 방식을 개선하여 무한에 가까운 context로 확장 [Github] [arXiv](Current version v3) Abstract 이전의 메모리 효율적인 transformers 보다 훨씬 긴 시퀀스를 훈련하고 추론할 수 있는 Ring Attention 제안 기존 최첨단 기술보다 500배 이상 긴 시퀀스를 훈련할 수 있다고 한다. ㄷㄷ Introduction Block-wise 방식으로 self-attention과 FFN을 수행함으로써 시퀀스 차원을 여러 장치(device)에 분산하여 계산할 수 있다. Ring Attention에서, 각 장치는 지정된 시퀀스 블록에 대한 attention, FFN을 계산한다. 각 장치는 ring을 형성하여 KV 블록을 공유..