본문 바로가기

분류 전체보기

(539)
xLSTM: Extended Long Short-Term Memory Abstract최신 LLM 기술을 활용하여 LSTM을 수십억 피라미터로 확장 [arXiv](2024/05/07 version v1)   IntroductionLSTMRNN의 일종으로 forget gate를 통해 이전 셀의 정보를 얼마나 잊을지, input gate를 통해 새로운 정보를 얼마나 반영할지, output gate를 통해 출력을 제어한다.    Extended Long Short-Term Memory Review of the Long Short-Term Memory sLSTMLSTM이 정보를 더 잘 조절할 수 있게 하기 위해 값을 0~1로 제한하는 sigmoid gate 대신 지수 게이트를 도입하고 안정화를 위해 normalizer state를 추가한다. 지수 함수의 큰 값은 overflow를..
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model AbstractMoE를 통한 경제적인 훈련, KV 캐시 압축을 통한 효율적인 추론이 특징인 236B (활성화 피라미터 21B) MoE 모델인 DeepSeek-V2 출시 (영어, 중국어) [Github][arXiv](2024/05/08 version v2)  Architecture 언급되지 않는 사소한 세부 사항은 DeepSeek-67B를 따른다.  Multi-Head Latent Attention: Boosting Inference Efficiency Preliminaries: Standard Multi-Head Attention    Low-Rank Key-Value Joint Compression MLA는 MHA보다 훨씬 적은 양은 KV 캐시를 저장하면서도 더 나은 성능을 제공한다. (MHA, MQ..
Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? Abstract새로운 사실적 지식을 학습하는 것이 LLM에 미치는 영향을 조사  [arXiv](2024/05/13 version v2)   Quantifying Knowledge in LLMs 새로운 지식이 포함된 fine-tuning dataset D가 모델의 성능에 미치는 영향을 평가하기 위해 주로 사실적 지식으로 구성된 D의 다양한 변형을 생성한다. D는 Wikidata의 삼중항(주제, 관계, 객체)을 QA 형식으로 변환하여 구성된다. E.g. '음바페는 PSG 소속이다.' → ('음바페는 어느 팀 소속인가요?', 'PSG') 질문에 대한 올바른 답변을 알고 있을 확률인 PCorrect를 측정하고 이를 통해 지식을 분류한다. 이른바 SliCK(Sampling-based Categorization o..
You Only Cache Once: Decoder-Decoder Architectures for Language Models (YOCO) AbstractDecoder를 KV 캐시를 생성하는 self-decoder, 생성된 캐시를 재사용하는 cross-decoder로 분리하여 효율성을 향상시키고 context를 확장한다. [Github][arXiv](2024/05/09 version v2)   You Only Cache Once (YOCO) L개의 블록 중 L/2개는 self-decoder, 나머지는 cross-decoder로 구성되어 있다. Self-Decoder Self-decoder는 efficient self-attention (ESA)를 사용한다.ESA는 어떤 새로운 방법이 아니라 sliding window attention와 같이 메모리 효율적인 어떤 방법이든 상관 없다.Cross-DecoderSelf-Decoder의 출력으로 K..
AlphaMath Almost Zero: process Supervision without process Abstract MCTS(Monte Carlo Tree Search)를 활용하여 인간 주석 데이터 없이 LLM의 수학 추론 프로세스 개선 [arXiv](2024/05/06 version v1)   Preliminary 수학 문제 해결을 강화 학습의 관점에서 바라본다. 먼저 문제 해결 과정을 T개의 추론 단계로 나누고 t 시점의 상태를 s, 다음 추론을 a라 할 때, 언어 모델은 정책의 역할을 한다. 가치 함수 V를 통해 s에서 보상의 기댓값을 평가할 수 있다. V는 일반적으로 N번의 시뮬레이션을 통해 보상을 집계하는 몬테카를로 평가를 사용하여 훈련된다.    Our Method MC 평가보다 효율적인 Monte Carlo Tree Search (MCTS) 알고리즘을 통해 V를 훈련하는 방법을 제안. MC..
Is Flash Attention Stable? Abstract훈련 불안정의 잠재적인 원인인 수치 편차(Numeric Deviation)를 정량화하는 방법을 제안하고 flash attention을 분석제목 어그로인 것으로 밝혀져... [arXiv](2024/05/05 version v1)   BackgroundFlash-Attention 논문 리뷰:시퀀스를 일정한 tile로 나누고 online-softmax trick을 사용하여 전체 행렬을 메모리에 올리지 않는다.Online softmax를 수행하기 위한 재조정 인자가 필요하다.Flash attention 논문의 그림본문의 그림    Experimental MethodologyAttention 호출 시 기존 attention과 flash attention을 모두 계산하고 출력을 비교한다.각 모델을 독..
What matters when building vision-language models? (Idefics2) AbstractVLM의 구성에 대한 광범위한 실험을 수행하고 결과를 기반으로 foundational VLM인 Idefics2 개발 [arXiv](2024/05/03 version v1)   Exploring the design space of vision-language models Finding 1. Vision backbone의 품질보다 Language backbone의 품질이 더 중요하다.Finding 2. Unimodal backbone이 고정된 상태일 때 cross-attention의 성능이, 그렇지 않은 경우 fully-autoregressive의 성능이 더 좋다.Finding 3. Fully-autoregressive architecture를 unfreezing 하면 훈련 발산이 발생할 수 ..
Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training AbstractAutoregression을 위해 설계된 완전히 미분 가능한 MoE 아키텍처인 Lory 소개 [arXiv](2024/05/06 version v1)   Preliminaries Mixture-of-Experts (왼쪽): 라우터가 입력 토큰에 적절한 특정 전문가를 선택한다.SMEAR (오른쪽): 라우팅 결과의 가중 평균을 통해 단일 전문가로 병합하여 토큰을 처리한다. 모든 구성요소가 미분 가능하여 보조 손실 없이 end-to-end 훈련이 가능하다.하지만 이 방법은 전문가의 수가 커짐에 따라 계산 비용이 증가하므로 실현 불가능하다.    Lory표기: 토큰 집합 X로 이루어진 시퀀스 L을 크기가 T인 N개의 segment로 나누고 각 segment를 Si, routing network를 R..
Soft Merging of Experts with Adaptive Routing (SMEAR) Abstract전문가의 가중 평균을 통해 구성된 단일 병합 전문가를 사용하여 보조 손실 없는 훈련을 가능하게 하는 SMEAR (Soft Merging of Experts with Adaptive Routing) 제안 [arXiv](2023/06/06 version v1)    Soft Merging of Experts with Adaptive RoutingMixture-of-Experts에 gradient 기반 훈련을 적용하면 라우팅에 역전파를 적용할 수 없기 때문에 문제가 있다.이를 해결하기 위한 일반적인 접근법은 라우팅 출력에 보조 손실을 추가로 도입하는 것이다. SMEAR은 라우팅 결과에 따라 모든 전문가의 가중 평균을 계산하여 하나의 전문가로 병합하고 출력을 계산한다.특정 전문가를 선택하는 과정이..
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models Abstract직접 평가 및 쌍별 순위 지정을 모두 수행할 수 있고 이전 버전보다 향상된 evaluator LM인 Prometheus 2 소개 [Github][arXiv](2024/05/02 version v1)   IntroductionLM의 품질을 평가하기 위해 독점 LM에 의존하는 것은 문제를 야기한다.투명하고 제어 가능하고 인간과의 일치도가 가장 높으며 직접 평가와 쌍별 순위를 매길 수 있는 통합 평가 모델 개발.    Methodology i) Direct Assessment 직접 평가는 지시와 그에 대한 응답을 스칼라 점수로 매핑하는 것이다. 인간 평가와의 상관관계를 최대화하기 위한 최근의 연구들을 반영하면, 모델에 참조 답안 a와 평가 기준 e를 제공하고 추가적으로 피드백 v를 출력하도록 한..
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models AbstractEvaluator LM을 훈련하기 위해 설계된 feedback collection dataset과 평가에 특화된 모델인 Prometheus 제안 [arXiv](2024/03/09 version v2, 2023/10/12 v1)   The Feedback Collection DatasetPrometheus의 입력: 지시, 지시에 대한 응답, 사용자가 제공한 평가 기준, 참조 답변출력: 점수, 점수에 대한 이론적 근거를 알려주는 피드백 Dataset Construction Process인간이 평가 기준 작성GPT-4를 통해 초기 평가 기준 세분화GPT-4를 통해 각 평가 기준과 관련된 새로운 지시 생성GPT-4를 통해 각 구성요소 생성Fine-Tuning an Evaluator LMFeedba..
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation AbstractConsistent self-attention을 통해 일관된 이미지, motion predictor를 통해 부드러운 비디오 생성 [Project Page][Github][arXiv](2024/05/02 version v1)   Method Training-free Consistent images generation Consistent Self-Attention (CSA)은 기존의 SA를 대체하고 원래의 가중치를 재사용하여 훈련 없이 사용할 수 있다.CSA의 방법은 간단하다. 배치 내의 다른 토큰을 self-attention에 참여시키는 것이다. 구체적으로, 배치 내의 다른 이미지에서 토큰을 샘플링하고 K, V에 추가하여 SA를 수행한다. Pi = Si + IiSemantic motion p..