본문 바로가기

분류 전체보기

(525)
Zoology: Measuring and Improving Recall in Efficient Language Models [Github] [arXiv](2023/12/08 version v1) Abstract Gated Convolution-Attention Hybrid model을 통해 multi-query associative recall (MQAR) 작업에서의 성능 향상 Background and Preliminaries Sequence mixers Attention Gated-Convolutions (= State Space Model의 일종, ≠ Mamba) Gated-convolution의 예: Hippo, Hungry Hungry Hippos (H3) Identifying the associative recall problem Fine-grained analysis of downstream quality Seq..
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation (SPIN-Diffusion) [arXiv](2024/02/15 version v1) Abstract Self-Play Fine-Tuning (SPIN)을 확산 모델에 적용한 SPIN-Diffusion 제안 Problem Setting and Preliminaries Text-to-Image Diffusion Model Self-Play Fine-Tuning (SPIN) Method SPIN을 확산 모델에 그대로 적용하는 것에는 한 가지 문제가 있다. LLM에서는 확률 pθ(x0|c)를 얻기 쉽지만, 확산 모델에서는 모든 timestep의 궤적을 계산해야 하므로 다루기 어렵다. Differentiating Diffusion Processes Self-play와 같은 최소화 목표로 시작. Deceiving the Test Functio..
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models (SPIN) [Project Page] [Github] [arXiv](2024/02/12 version v2) Abstract SFT data를 활용한 self-play mechanism을 통해 성능을 점진적으로 향상시키는 SPIN (Self-Play fIne-tuNing) 제안 Problem Setting and Preliminaries LLM의 다음 토큰 예측: Supervised Fine-Tuning (SFT): 모델의 예측 분포 pθ​(y∣x)가 고품질 QA 데이터셋의 분포 pdata(y∣x)와 일치할 때 최소가 된다. RL Fine-Tuning: 보상 모델 r을 기준으로 보상을 최대화, 안정적인 훈련을 위해 KL regularization 추가. Self-Play Fine-Tuning (SPIN) 인간과 L..
Generative Representational Instruction Tuning (GRIT) [Github] [arXiv](2024/02/15 version v1) Abstract Instruction tuning을 통해 LLM이 embedding과 generative task를 구별하여 처리할 수 있도록 훈련된 GRIT (Generative Representational Instruction Tuning) 소개 GRIT Representational instruction tuning In-batch negatives와 함께 contrastive objective를 사용하여 손실을 계산한다. (참고) 위 그림과 같이 bidirectional attention을 채택하고 최종 표현을 생성하기 위해 마지막 hidden state에 mean pooling을 적용한다. fθ = GRIT, σ = poo..
Chain-of-Thought Reasoning Without Prompting (CoT-decoding) [arXiv](2024/02/15 version v1) Abstract 단순히 decoding process를 변경함으로써 prompting 없이 CoT reasoning path를 도출할 수 있는 CoT-decoding 소개 Introduction 입력은 "Q:[question]\nA:" 형식이다. Greedy decoding 대신 대안적인 경로를 탐색하며 CoT가 디코딩 경로에 존재할 때 더 높은 신뢰도를 갖는 경향이 있다. Chain-of-Thought (CoT) Decoding The Presence of CoT Paths during Decoding Greedy decoding 모델은 즉각적인 문제 해결 경향이 있으며, 이는 일반적으로 정확도가 낮다. 반면에 첫 번째 디코딩 단계에서 top-k ..
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data [Audio Sample] [arXiv](2024/02/15 version v2) 모델은 윤리적인 이유로 공개하지 않는다고 한다. Abstract 100K 시간의 음성 데이터에 대해 훈련된 현존하는 가장 큰 규모의 autoregressive TTS model인 BASE( Big Adaptive Streamable TTS with Emergent abilities) TTS 제안 Introduction BASE TTS는 이전 최고치의 두 배에 달하는 100K 시간의 공개 음성 데이터에 대해 훈련된 LTTS이다. LLM의 성공에서 영감을 받아 다음 토큰 예측을 사용한다. Speechcode라는 개별 음성 표현을 사용한다. BASE TTS Dataset D = {x, y}. x는 text이고 y는 그에 해당하는..
Mixtures of Experts Unlock Parameter Scaling for Deep RL [arXiv](2024/02/13 version v1) Abstract 강화 학습에서 MoE를 통한 피라미터 확장으로 성능 향상 Preliminaries Mixture of Experts (MoE) SoftMoE 강화 학습 대체 뭐냐? Mixture of Experts for Deep RL Where to place the MoEs? 두 번째 FFN layer. What is a token? 실험 결과 PerConv 방식이 가장 성능이 좋았다고 함. 또한 전문가 출력에서 입력 크기를 유지하기 위해 linear projection 추가. What flavour of MoE to use? Top1-MoE, SoftMoE Empirical evaluation 다양하고 도전적인 픽셀 기반 환경 모음인 Arcad..
From Sparse to Soft Mixtures of Experts (SoftMoE) [Github] [arXiv](2023/08/02 version v1) Abstract Mixture of Experts의 문제들을 해결하면서 이점을 유지하는 완전 미분 가능한 SoftMoE 제안 Soft Mixture of Experts SoftMoE는 단일 토큰이 아닌 토큰들의 가중 평균을 할당한다. 사실 이 그림만 봐도 SoftMoE 완벽 이해됨. Algorithm description d 차원인 m개의 토큰이 포함된 입력 시퀀스 X, d 차원 피라미터와 p slots을 가진 n개의 전문가가 포함된 MoE layer. 각 슬롯은 개별적으로 피라미터 Φ를 가진다. Input slots X̃는 다음과 같이 입력 X에 각 슬롯에 대한 피라미터 Φ를 적용하고 softmax를 적용하는 dispatch wei..
World Model on Million-Length Video And Language With RingAttention (LargeWorldModel) [Project Page] [Github] [arXiv](2024/02/13 version v1) Abstract Ring attention을 활용하여 1M 길이의 context에 대한 multi-modal modeling이 가능한 LargeWorldModel(LWM) 제안 Introduction Ring Attention을 통해 context 크기를 1M까지 점진적으로 늘림 Video, image, text 혼합에 대한 훈련 책에서 QA dataset을 생성 Overview Stage I: Learning Long-Context Language Models Long-context LM인 LWM-Text, LWM-Text-Chat 개발 Extending Context Ring attention + Fla..
이제는 그냥 즐기는 사람 이 남자는 무료로 논문을 수정해줍니다. https://github.com/Aaronhuang-778/BiLLM/issues/6
More Agents Is All You Need [Github] [arXiv](2024/02/03 version v1) Abstract 간단한 sampling 및 voting을 통해 LLM의 성능 향상 제목어그로 Method ~ 5 : 단일 또는 여러 LLM agent를 통해 쿼리 x에 대한 N개의 샘플 생성. 6 ~ 13 : 각각의 샘플에 대해 다른 샘플과의 유사도를 계산. 14 ~ 15 : 누적 유사도가 가장 높은 답변을 채택. Experimental Results 성능 향상됐어요. 다른 유사 방법과 비교
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [Github] [arXiv](2024/02/06 version v1) Abstract 고정밀 추론이 가능한 1-bit post-training quantization (PTQ) 방식인 BiLLM 제안 Introduction 두 가지 중요한 관찰: 가중치의 Hessian matrix는 긴 꼬리 분포를 보인다. 가중치 크기의 density distribution은 종 모양 패턴을 따른다. 이는 대부분의 가중치가 중복적이고 소수의 가중치가 중요한 역할을 한다는 것을 의미하며 공격적인 양자화를 가능하게 한다. 두 가지 핵심 설계: Hessian matrix를 통해 유의미한 가중치의 복원을 극대화 비돌출 가중치에 대한 최적의 분할 이진화 전략 일반적인 네트워크 이진화: Method Salient Weight B..