본문 바로가기

전체 글

(579)

Fast Feedforward Networks (FFF) Feedforward를 나눈 후 이진트리를 통해 다음 hidden node를 선택 [Github] [arXiv](Current version v2) Abstract Fast feedforward network를 도입하여 계층 크기와 추론 비용 사이의 비례를 끊는다. FFF는 feedforward 보다 최대 220배 빠르고 뉴런의 1%만 사용하면서 성능의 95%를 유지할 수 있다. Introduction 이전의 FF 모듈화에 대한 연구들은 뉴런을 전문화된 개별 블록으로 나누고 forward pass에 사용될 전문가 혼합을 결정하는 gating layer를 훈련하는 공통의 접근 방식을 공유한다. 하지만 이는 훈련을 복잡하게 만들고 중복성이 장려된다. FFF는 미분 가능한 이진트리를 통해 입력 공간을 서로 다..

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (MoE) Feedforward network를 하위 집합인 expert로 나누어 소수의 적합한 expert만이 계산에 참여함 [Github] [arXiv](Current version v1) Abstract Feedfoward의 하위 네트워크인 Sparsely-Gated Mixture-of-Experts layer (MoE)를 통해 약간의 계산 효율성 손실만으로 모델 용량을 1000배 이상 향상하고 성능을 크게 향상함. The Structure of The Mixture-of-Experts Layer MoE는 n개의 전문가 네트워크 세트와 희소 벡터를 출력하는 gating network G로 구성된다. i번째 expert의 출력을 Ei(x), gating output을 G(x)라 하면 MoE의 출력은 다음과 같다..

Cramming: Training a Language Model on a Single GPU in One Day 초저비용 환경에서 최대의 학습 효율 내기 인용 논문을 그냥 지나칠 수 없는 성격 때문에 리뷰했지만 사실 별로 중요한 논문은 아닌... [Github] [arXiv](Current version v1) [BERT] Abstract 최근에 언어 모델링 추세는 성능 향상에 집중하고 있으며, 이는 실무자가 언어 모델을 훈련하기 불가능한 환경을 초래했다. 본문에서는 단일 GPU에서 하루 동안 masked language modeling으로 처음부터 훈련된 BERT류 모델로 달성할 수 있는 downstream performance를 조사한다. Tying Our Hands Behind Our Back: A Setup with Limited Compute Masked language modeling으로 처음부터 훈련되..

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation 딱히 특별한 건 없어 보이는데 왜 성능이 좋은 걸까... SD 2.1이 사기인가? 데이터셋이 좋았나? [Project Page] [Github] [arXiv](Current version v1) Abstract 1024 × 576 해상도의 고품질 비디오를 생성할 수 있는 T2V, I2V 모델 소개 Introduction Stable Diffusion 2.1을 기반으로 구축. Text-to-Video Model: SD U-Net에 temporal attention layer 통합. 개념 망각을 방지하기 위해 이미지, 비디오 공동 훈련 전략 사용. 2초 길이의 1024 x 576 해상도의 비디오를 생성할 수 있다. Image-to-Video Model: 텍스트와 이미지를 모두 입력으로 받을 수 있다. CLI..

Latent Video Diffusion Models for High-Fidelity Long Video Generation (LVDM) LDM을 시간 차원으로 확장하여 비디오 생성 [Project Page] [Github] [arXiv](Current version v2) Abstract 저차원 3D 잠재공간을 활용한 Latent Video Diffusion Models(LVDM) 제안 Introduction LDM의 저차원 잠재공간을 활용해 효율적으로 비디오를 생성할 수 있는 LVDM. +훈련 길이보다 더 긴 비디오를 생성할 수 있는 계층적 LVDM 프레임워크, 긴 비디오에 대한 성능 저하를 완화하기 위해 조건부 잠재 섭동과 무조건 지침 사용. Method Video Autoencoder 경량 3D 오토인코더로 비디오 압축. 비디오 샘플 x0 ∈ RH × W × L × 3가 주어지면 인코더 E는 spatial and temporal d..

Instruction Tuning with Human Curriculum (CORGI) 인간의 학습 커리큘럼을 언어 모델에 적용 [Github] [arXiv](Current version v1) [Online Demo] Chatbot UI openchat.team Abstract 인간 교육의 점진적이고 조직적인 특성을 모방하는 고도로 구조화된 합성 데이터 세트와 이를 이용한 교육 프레임워크인 CORGI(Cognitively hardest instructions) 제안 Introduction 언어 모델을 다양한 교육 기관으로부터 지식을 점진적으로 습득하려는 고등학생으로 개념화한다. Educational Stage: 초등 개념에서부터 복잡한 개념을 순차적으로 마스터 Cognitive Hierarchy: 각 개념에 대한 이해를 점진적으로 심화 CORGI(Cognitively hardest ins..

OpenChat: Advancing Open-source Language Models with Mixed-Quality Data C-RLFT를 통해 SFT dataset으로도 online fine-tuning을 가능하게 함 [Github] [arXiv](Current version v1) [Online Demo] Chatbot UI openchat.team Abstract 혼합 품질 데이터를 사용하여 LLM을 학습할 수 있는 C-RLFT(Conditioned-Reinforcement Learning Fine-Tuning) 제안, 그리고 이를 활용하여 학습한 chatbot인 OpenChat 소개 Introduction LLM의 fine-tuning에는 supervised fine-tuning(SFT), reinforcement learning fine-tuning(RLFT) 방법이 있다. SFT dataset에는 전문가 데이터와 차..

AWAC: Accelerating Online Reinforcement Learning with Offline Datasets Weighted likeihood를 통해 online fine-tuning 개선 강화학습 하나도 몰라서 힘들었다... [Github] [arXiv](Current version v6) I. Introduction Offline data를 통한 사전 훈련과 online data 수집을 통한 정책 개선을 연결하기 위해 weighted maximum likeihood를 사용한 Advantage Weighted Actor Critic (AWAC) 알고리즘을 제안한다. II. Preliminaries 강화 학습 대체 뭐냐? 더보기 Key concepts in Reinforcement Learning REINFORCE — a policy-gradient based reinforcement Learning algor..

티스토리 접은글(더보기) 상자 만들기/펼치기 티스토리에서 글을 쓸 때는 분명히 접은글 상자가 있었는데, 글을 다 쓰고 저장하면 상자가 없어져 있다?!?!?! (뭐임;;) 접은글 상자를 직접 만들어보자 F12로 개발자 도구를 열어서 접은글을 찾아보면 'moreLess'라는 속성의 division이라는 것을 알 수 있다. 블로그 관리 → 스킨 편집 → html 편집 → CSS에 들어가서 아무데나 다음 코드를 넣으면 된다. div[data-ke-type='moreLess'] { margin: 20px 0px; background-color: #fafafa; padding: 20px 20px 22px; border: 1px dashed #c5c5c5; } 나는 그냥 맨 밑에 넣었음. 저장하고 다시 들어가 보면 상자가 생긴 것을 확인할 수 있다. 더보기 s..

RL with KL penalties is better viewed as Bayesian inference LM fine-tuning을 강화 학습으로 보는 관점과 베이즈 추론으로 보는 관점 비교 [arXiv](Current version v2) Introduction Reinforcement learning(RL) from human feedback은 현재 Language Model(LM)의 정렬에 매우 많이 쓰이는 방식이다. 또한 그중에서도 흔하게 쓰이는 방식인 KL-regularised RL에 대한 분석을 제공하고 이를 베이즈 추론으로 보는 대안적인 관점을 제시한다. 결론적으로 RL은 LM fine-tuning 같은 문제에 대한 적절한 프레임워크가 아니라고 한다. Fine-tuning language models using standard RL and distribution collapse X를 토큰의 시..

WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences BingAI랑 똑같은 느낌? 처음에 되게 신기했는데 이런 원리였구만? [Github] [arXiv](Current version v1) Abstract General Language Model(GLM)을 백본으로 하는 웹 검색 기반 질의응답 시스템인 WebGLM 제안 Introduction 최근 WebGPT와 같이 웹 검색과 같은 외부 지식을 활용하여 LLM을 구축하는 데 노력이 집중되고 있다. 하지만 WebGPT 방법은 실제 배포와는 거리가 먼데, 잘 작성된 답변 및 선호도 라벨링에 대한 전문가 수준 주석에 의존하므로 상당한 비용, 시간 및 교육이 필요하다. WebGPT-13B가 500 토큰 프롬프트에 응답하는 데 약 31초로 너무 느리다. WebGLM: An LLM-augmented Retriever..

Unsupervised Dense Information Retrieval with Contrastive Learning (Contriever) [Github] [arXiv](Current version v4) Abstract 비지도 dense retriever의 훈련 방법으로 대조 학습을 탐구한다. Dense Retriever : e.g. DPR - Question과 검색으로 얻은 document를 BERT에 통과시켜 [CLS] Token을 계산한 후 내적을 통해 유사도를 구함 Method 쿼리 q와 문서 d가 주어지면 인코더 f를 통과한 후 내적으로 score를 구함. Contrastive learning Positive doc k+, 쿼리 q, negative docs ki가 주어지면 다음과 같이 contrastive InfoNCE loss 정의: Building positive pairs from a single document 대조 학습..

이전 1 ··· 27 28 29 30 31 32 33 ··· 49 다음 30/49

티스토리툴바