본문 바로가기

전체 글

(528)
Latent Video Diffusion Models for High-Fidelity Long Video Generation (LVDM) LDM을 시간 차원으로 확장하여 비디오 생성 [Project Page] [Github] [arXiv](Current version v2) Abstract 저차원 3D 잠재공간을 활용한 Latent Video Diffusion Models(LVDM) 제안 Introduction LDM의 저차원 잠재공간을 활용해 효율적으로 비디오를 생성할 수 있는 LVDM. +훈련 길이보다 더 긴 비디오를 생성할 수 있는 계층적 LVDM 프레임워크, 긴 비디오에 대한 성능 저하를 완화하기 위해 조건부 잠재 섭동과 무조건 지침 사용. Method Video Autoencoder 경량 3D 오토인코더로 비디오 압축. 비디오 샘플 x0 ∈ RH × W × L × 3가 주어지면 인코더 E는 spatial and temporal d..
Instruction Tuning with Human Curriculum (CORGI) 인간의 학습 커리큘럼을 언어 모델에 적용 [Github] [arXiv](Current version v1) [Online Demo] Chatbot UI openchat.team Abstract 인간 교육의 점진적이고 조직적인 특성을 모방하는 고도로 구조화된 합성 데이터 세트와 이를 이용한 교육 프레임워크인 CORGI(Cognitively hardest instructions) 제안 Introduction 언어 모델을 다양한 교육 기관으로부터 지식을 점진적으로 습득하려는 고등학생으로 개념화한다. Educational Stage: 초등 개념에서부터 복잡한 개념을 순차적으로 마스터 Cognitive Hierarchy: 각 개념에 대한 이해를 점진적으로 심화 CORGI(Cognitively hardest ins..
OpenChat: Advancing Open-source Language Models with Mixed-Quality Data C-RLFT를 통해 SFT dataset으로도 online fine-tuning을 가능하게 함 [Github] [arXiv](Current version v1) [Online Demo] Chatbot UI openchat.team Abstract 혼합 품질 데이터를 사용하여 LLM을 학습할 수 있는 C-RLFT(Conditioned-Reinforcement Learning Fine-Tuning) 제안, 그리고 이를 활용하여 학습한 chatbot인 OpenChat 소개 Introduction LLM의 fine-tuning에는 supervised fine-tuning(SFT), reinforcement learning fine-tuning(RLFT) 방법이 있다. SFT dataset에는 전문가 데이터와 차..
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets Weighted likeihood를 통해 online fine-tuning 개선 강화학습 하나도 몰라서 힘들었다... [Github] [arXiv](Current version v6) I. Introduction Offline data를 통한 사전 훈련과 online data 수집을 통한 정책 개선을 연결하기 위해 weighted maximum likeihood를 사용한 Advantage Weighted Actor Critic (AWAC) 알고리즘을 제안한다. II. Preliminaries 강화 학습 대체 뭐냐? 더보기 Key concepts in Reinforcement Learning REINFORCE — a policy-gradient based reinforcement Learning algor..
티스토리 접은글(더보기) 상자 만들기/펼치기 티스토리에서 글을 쓸 때는 분명히 접은글 상자가 있었는데, 글을 다 쓰고 저장하면 상자가 없어져 있다?!?!?! (뭐임;;) 접은글 상자를 직접 만들어보자 F12로 개발자 도구를 열어서 접은글을 찾아보면 'moreLess'라는 속성의 division이라는 것을 알 수 있다. 블로그 관리 → 스킨 편집 → html 편집 → CSS에 들어가서 아무데나 다음 코드를 넣으면 된다. div[data-ke-type='moreLess'] { margin: 20px 0px; background-color: #fafafa; padding: 20px 20px 22px; border: 1px dashed #c5c5c5; } 나는 그냥 맨 밑에 넣었음. 저장하고 다시 들어가 보면 상자가 생긴 것을 확인할 수 있다. 더보기 s..
RL with KL penalties is better viewed as Bayesian inference LM fine-tuning을 강화 학습으로 보는 관점과 베이즈 추론으로 보는 관점 비교 [arXiv](Current version v2) Introduction Reinforcement learning(RL) from human feedback은 현재 Language Model(LM)의 정렬에 매우 많이 쓰이는 방식이다. 또한 그중에서도 흔하게 쓰이는 방식인 KL-regularised RL에 대한 분석을 제공하고 이를 베이즈 추론으로 보는 대안적인 관점을 제시한다. 결론적으로 RL은 LM fine-tuning 같은 문제에 대한 적절한 프레임워크가 아니라고 한다. Fine-tuning language models using standard RL and distribution collapse X를 토큰의 시..
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences BingAI랑 똑같은 느낌? 처음에 되게 신기했는데 이런 원리였구만? [Github] [arXiv](Current version v1) Abstract General Language Model(GLM)을 백본으로 하는 웹 검색 기반 질의응답 시스템인 WebGLM 제안 Introduction 최근 WebGPT와 같이 웹 검색과 같은 외부 지식을 활용하여 LLM을 구축하는 데 노력이 집중되고 있다. 하지만 WebGPT 방법은 실제 배포와는 거리가 먼데, 잘 작성된 답변 및 선호도 라벨링에 대한 전문가 수준 주석에 의존하므로 상당한 비용, 시간 및 교육이 필요하다. WebGPT-13B가 500 토큰 프롬프트에 응답하는 데 약 31초로 너무 느리다. WebGLM: An LLM-augmented Retriever..
Unsupervised Dense Information Retrieval with Contrastive Learning (Contriever) [Github] [arXiv](Current version v4) Abstract 비지도 dense retriever의 훈련 방법으로 대조 학습을 탐구한다. Dense Retriever : e.g. DPR - Question과 검색으로 얻은 document를 BERT에 통과시켜 [CLS] Token을 계산한 후 내적을 통해 유사도를 구함 Method 쿼리 q와 문서 d가 주어지면 인코더 f를 통과한 후 내적으로 score를 구함. Contrastive learning Positive doc k+, 쿼리 q, negative docs ki가 주어지면 다음과 같이 contrastive InfoNCE loss 정의: Building positive pairs from a single document 대조 학습..
GLM-130B: An Open Bilingual Pre-trained Model 대규모 이중언어 오픈소스 모델. 훈련 과정을 전부 공개하였다. [Github] [arXiv](Current version v2) Abstract GPT-3만큼 우수한 이중언어(영어, 중국어)로 pre-training 된 대규모 오픈소스 언어 모델인 GLM-130B 소개. Introduction 100B의 초대형 모델을 훈련하는 데는 많은 어려움이 있다. 이 분야의 선구자의 GPT-3은 대중에게 투명하게 공개되지 않았다. 이 논문에서는 GLM-130B를 훈련하며 얻은 성공적인 부분, 실패한 옵션 등 훈련 과정을 공개한다. 다른 초대형 모델들과의 차이: GPT style architecture 대신 General Language Model (GLM) 알고리즘을 채택하였다. 또한 많은 사람들이 LLM 연구를 ..
Memory-Efficient Pipeline-Parallel DNN Training (PipeDream-2BW, PipeDream-Flush) PipeDream의 메모리 부담을 개선 [Github] [arXiv](Current version v3) Abstract 메모리 효율적인 파이프라인 병렬성을 지원하는 시스템인 PipeDream-2BW 제안 Introduction 이전의 파이프라인 모델 병렬화: [GPipe] [PipeDream] GPipe는 유휴 시간이 많으며, PipeDream은 가중치 저장으로 인해 메모리 제약이 크다는 단점이 있다. PipeDream-2BW의 이점: 유휴 시간을 유발하는 pipeline flush를 피하면서 메모리 공간을 줄이는 double-buffered weight updates (2BW) 효과적인 병렬화 체계를 생성하는 PipeDream-2BW planner PipeDream-2BW System Design D..
PipeDream: Fast and Efficient Pipeline Parallel DNN Training 1F1B 알고리즘을 통해 유휴시간 없는 파이프라인 병렬화 [Github] [arXiv](Current version v1) Abstract DNN에서 파이프라인 병렬화 training system인 PipeDream 제안 Introduction 파이프라인, 모델 병렬 처리, 데이터 병렬처리의 조합을 pipeline-parallel training이라고 부른다. (PP) 데이터 병렬 훈련보다 worker 간 통신이 95% 적다고 한다. 모든 레이어를 몇 개의 stage로 나눈다. PipeDream의 설계: 알고리즘을 통해 잘못된 partitioning으로 stage 간 작업량이 편향되는 것을 방지 모든 작업자를 바쁜 상태로 유지하기 위한 양방향 훈련 특정 미니배치에 대한 역방향 전달이 해당 순방향 전달에 ..
GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism [Github] [arXiv](Current version v5) Abstract 신경망 계층 여러 가속기에 분산하여 다양한 작업에 대한 효율적인 규모 확장을 가능케 하는 라이브러리인 GPipe 제안 The GPipe Library Interface 네트워크는 L 레이어를 가지고 있고, 각 레이어는 순전파 함수 f, 피라미터 w로 이루어져 있다. GPipe는 L개의 레이어를 K개의 파티션으로 분할하고, i ~ j 레이어를 나타내는 파티션 p는 피라미터 wi, wi+1,..., wj, 순전파 함수 F, 역전파 함수 B, 비용 추정기 C를 가진다. Algorithm k번째 셀을 k번째 가속기에 배치. 미니 배치를 나눈 각 마이크로 배치에 대해 gradient가 누적되고 미니 배치가 완전히 끝났을 때 피라미터..