본문 바로가기

분류 전체보기

(582)

BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data [Audio Sample] [arXiv](2024/02/15 version v2) 모델은 윤리적인 이유로 공개하지 않는다고 한다. Abstract 100K 시간의 음성 데이터에 대해 훈련된 현존하는 가장 큰 규모의 autoregressive TTS model인 BASE( Big Adaptive Streamable TTS with Emergent abilities) TTS 제안 Introduction BASE TTS는 이전 최고치의 두 배에 달하는 100K 시간의 공개 음성 데이터에 대해 훈련된 LTTS이다. LLM의 성공에서 영감을 받아 다음 토큰 예측을 사용한다. Speechcode라는 개별 음성 표현을 사용한다. BASE TTS Dataset D = {x, y}. x는 text이고 y는 그에 해당하는..

Mixtures of Experts Unlock Parameter Scaling for Deep RL [arXiv](2024/02/13 version v1) Abstract 강화 학습에서 MoE를 통한 피라미터 확장으로 성능 향상 Preliminaries Mixture of Experts (MoE) SoftMoE 강화 학습 대체 뭐냐? Mixture of Experts for Deep RL Where to place the MoEs? 두 번째 FFN layer. What is a token? 실험 결과 PerConv 방식이 가장 성능이 좋았다고 함. 또한 전문가 출력에서 입력 크기를 유지하기 위해 linear projection 추가. What flavour of MoE to use? Top1-MoE, SoftMoE Empirical evaluation 다양하고 도전적인 픽셀 기반 환경 모음인 Arcad..

From Sparse to Soft Mixtures of Experts (SoftMoE) [Github] [arXiv](2023/08/02 version v1) Abstract Mixture of Experts의 문제들을 해결하면서 이점을 유지하는 완전 미분 가능한 SoftMoE 제안 Soft Mixture of Experts SoftMoE는 단일 토큰이 아닌 토큰들의 가중 평균을 할당한다. 사실 이 그림만 봐도 SoftMoE 완벽 이해됨. Algorithm description d 차원인 m개의 토큰이 포함된 입력 시퀀스 X, d 차원 피라미터와 p slots을 가진 n개의 전문가가 포함된 MoE layer. 각 슬롯은 개별적으로 피라미터 Φ를 가진다. Input slots X̃는 다음과 같이 입력 X에 각 슬롯에 대한 피라미터 Φ를 적용하고 softmax를 적용하는 dispatch wei..

World Model on Million-Length Video And Language With RingAttention (LargeWorldModel) [Project Page] [Github] [arXiv](2024/02/13 version v1) Abstract Ring attention을 활용하여 1M 길이의 context에 대한 multi-modal modeling이 가능한 LargeWorldModel(LWM) 제안 Introduction Ring Attention을 통해 context 크기를 1M까지 점진적으로 늘림 Video, image, text 혼합에 대한 훈련 책에서 QA dataset을 생성 Overview Stage I: Learning Long-Context Language Models Long-context LM인 LWM-Text, LWM-Text-Chat 개발 Extending Context Ring attention + Fla..

More Agents Is All You Need [Github] [arXiv](2024/02/03 version v1) Abstract 간단한 sampling 및 voting을 통해 LLM의 성능 향상 제목어그로 Method ~ 5 : 단일 또는 여러 LLM agent를 통해 쿼리 x에 대한 N개의 샘플 생성. 6 ~ 13 : 각각의 샘플에 대해 다른 샘플과의 유사도를 계산. 14 ~ 15 : 누적 유사도가 가장 높은 답변을 채택. Experimental Results 성능 향상됐어요. 다른 유사 방법과 비교

BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [Github] [arXiv](2024/02/06 version v1) Abstract 고정밀 추론이 가능한 1-bit post-training quantization (PTQ) 방식인 BiLLM 제안 Introduction 두 가지 중요한 관찰: 가중치의 Hessian matrix는 긴 꼬리 분포를 보인다. 가중치 크기의 density distribution은 종 모양 패턴을 따른다. 이는 대부분의 가중치가 중복적이고 소수의 가중치가 중요한 역할을 한다는 것을 의미하며 공격적인 양자화를 가능하게 한다. 두 가지 핵심 설계: Hessian matrix를 통해 유의미한 가중치의 복원을 극대화 비돌출 가중치에 대한 최적의 분할 이진화 전략 일반적인 네트워크 이진화: Method Salient Weight B..

Self-Discover: Large Language Models Self-Compose Reasoning Structures [arXiv](2024/02/06 version v1) Abstract 복잡한 추론 문제를 해결하기 위해 LLM이 작업 내재적 추론 구조를 스스로 발견하는 Self-Discover를 소개한다. Chain of Thought (CoT), CoT-Self-Consistency와 같은 방법들보다 10~40배 적은 컴퓨팅 능력을 사용하면서 성능은 더 뛰어나다. lntroduction 아래 그림과 같이 LLM, task examples without labels, 문제 해결 휴리스틱을 나타내는 일련의 자연어 atomic reasoning modules (e.g. 'breakdown into sub tasks', 'critical thinking', ' think step by step')이 주어지면, LLM이 추..

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters [Github] [arXiv](2024/02/06 version v1) Abstract 현재까지 가장 크고 강력한 open-source CLIP model인 EVA-CLIP-18B 출시 참고: [EVA-01, EVA-02, EVA-CLIP] Introduction EVA-CLIP을 18B까지 확장. 포화의 징후를 보이지 않아 추가로 확장할 수 있는 잠재력이 있다. Weak-to-Strong Vision Scaling EVA 시리즈의 철학에 따라 작은 모델의 지식을 큰 모델로 증류하고 반복해서 더 큰 모델로 증류한다. EVA-02-CLIP-E/14+를 교사로 EVA-02를 18B까지 확장하고 데이터셋은 대부분 고정된 상태로 유지된다. 또한 EVA-18B(≠ EVA-CLIP-18B)는 QKV projecti..

Training-Free Consistent Text-to-Image Generation (ConsiStory) [arXiv](2024/02/05 version v1) Abstract 사전 훈련된 모델의 내부 활성화를 공유하여 일관된 subject 생성을 가능하게 하는 훈련 없는 접근 방식인 ConsiStory 제안 Method Subject-driven self-attention Enriching layout diversity Feature injection Anchor images and reusable subjects Multi-subject consistent generation Subject-driven self-attention 모든 diffusion timestep과 32x32 해상도의 모든 cross-attention layer에서 attention map을 수집하고 임계값을 적용하여 subject ..

OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models [Github] [arXiv](2024/01/29 version v1) Abstract Routing mechanism을 심층적으로 분석하고 OpenMoE를 open-source로 출시 Designing OpenMoE Pre-training Dataset: More Code than Usual 저자는 코드 데이터가 매우 중요하다고 강조한다. 복잡한 추론 능력을 향상시킬 수 있음 모호한 자연어와 달리 항상 명확함 코드 데이터인 The Stack Dedup이 데이터의 50%를 차지한다. Model Architecture: Decoder-only ST-MoE Tokenizer 대규모 다국어 vocabulary를 갖추고 out-of-vocab token을 더 잘 지원하는 umT5 tokenizer를 사용한다. ..

ST-MoE: Designing Stable and Transferable Sparse Expert Models [Github] [arXiv](2022/04/29 version v2) Abstract MoE의 안정적인 훈련을 위한 Router z-loss 제안 Background Mixture of Experts (MoE) 라우터는 변수 W를 통해 softmax로 정규화되는 logits h(x)를 생성한다. Stabilizing Training of Sparse Models Sparse model은 훈련이 불안정하다. 품질을 저하시키지 않고 안정적으로 훈련하는 방법에 대한 연구. Stability and quality tradeoffs when removing multiplicative interactions 두 가지 multiplicative interaction을 제거 GEGLU RMS Scale Paramet..

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models [Github] [arXiv](2024/02/06 version v2) Contributions Math Pre-Training at Scale Common Crawl에서 세심하게 설계된 데이터 선택 파이프라인을 통해 DeepSeekMath corpus 구축 DeepSeekMath-Base 7B를 통해 고품질 데이터로 훈련된 작은 모델이 강력한 성능을 달성할 수 있음을 보여줌 코드에 대한 훈련은 수학적 추론 능력에 도움이 된다 arXiv 논문에 대한 훈련은 많은 수학 관련 작업에서 일반적이지만 본문에서는 별 효과가 없었다 Exploration and Analysis of Reinforcement Learning 효과적인 강화 학습 알고리즘인 Group Relative Policy Optimization ..

이전 1 ··· 15 16 17 18 19 20 21 ··· 49 다음

티스토리툴바