본문 바로가기

논문 리뷰

(452)
LoRA Learns Less and Forgets Less AbstractCode&math에서 LoRA와 full-finetuning의 차이를 비교, 분석 [arXiv](2024/05/15 version v1)   IntroductionFull-finetuning은 code&math에서 LoRA보다 정확하고 샘플 효율적이다.LoRA는 강력한 정규화를 제공하여 source domain을 덜 잊어버린다.LoRA는 full-finetuning보다 하이퍼피라미터에 더 민감하다. 연구진은 결론적으로 IFT에 LoRA를 사용할 것을 추천했다. (All LoRA, 낮은 rank 채택)IFT의 좋은 성능, 높은 망각 특징을 LoRA가 보완해 줄 수 있기 때문이다.   Results6개 설정의 LoRA를 훈련한다. (module = [Attention, MLP, All], ra..
FIFO-Diffusion: Generating Infinite Videos from Text without Training Abstract사전 훈련된 확산 모델을 기반으로 추가 훈련 없이 무한히 긴 비디오를 생성할 수 있는 FIFO-Diffusion 제안 [Project Page][Github][arXiv](2024/05/19 version v1)   FIFO-Diffusion Diagonal denoising 방법은 간단하다. Timestep을 프레임과 같은 f로 나눈 후 다음과 같이 처리한다. 빨간 실선으로 둘러싸인 프레임들이 한 번에 계산되는 프레임들이다.중요한 것은 기존의 비디오 확산 모델처럼 모든 프레임이 모든 같은 timestep을 공유하지 않는다는 것이다. 프레임 간의 거리는 timestep 간의 거리와 같다.   Latent partitioning 원본 확산 모델은 모든 프레임에서 같은 timestep을 예측..
Chameleon: Mixed-Modal Early-Fusion Foundation Models Abstract사전 훈련된 각 modal-encoder와 LLM을 사용하는 대신 end-to-end 방식으로 처음부터 훈련된 mixed-modal model인 Chameleon 소개 [arXiv](2024/05/16 version v1) Chameleon은 Meta에서 이미 5개월 전에 훈련을 완료했으며 지금은 훨씬 더 발전했다고 한다.   Pre-Training  TokenizationImage tokenizerMake-A-Scene의 image tokenizer를 기반으로 이미지 패치를 8192개의 codebook vector 중 하나로 인코딩. Tokenizer8192개의 이미지 코드를 포함한 65536 vocabulary size의 BPE tokenizer. Pre-Training Data 사전 ..
The Platonic Representation Hypothesis AbstractDeep networks는 modality 전반에 걸쳐 플라톤의 이상적인 현실 개념과 유사한 현실의 공유된 통계 모델을 향해 수렴되고 있다. 연구진은 그러한 표현을 platonic representation이라 명명하고 이에 대해 논의한다. [Project Page][Github][arXiv](2024/05/13 version v1)   Introduction최신 AI system은 각 modality 처리를 위해 다른 아키텍처를 사용하는 대신 단일 모델로 통합되고 있으며 (e.g. GPT4-V) 점점 더 많은 분야에서 이러한 foundation model을 채택하고 있다. The Platonic Representation Hypothesis:이미지 표현 X, 텍스트 표현 Y는 공통된 현실..
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection AbstractGrounding DINO에서 탐지 성능, 추론 속도 개선 [Github][arXiv](2024/05/16 version v1)   Model Training Grounding DINO 1.5 Pro 1. 더 큰 vision backbone 사용: ViT-L2. 훈련 중 negative sample의 비율을 높임3. Grounding-20M이라고 하는 고품질 grounding dataset을 제작하여 훈련함 Grounding DINO 1.5 Edge  Image backbone은 feature enhancer에 multi-scale feature를 제공하는데, 저해상도 feature는 enhancer의 계산량만 가중시킬 뿐 많은 정보가 존재하지 않으므로 P5-level feature만 제..
Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models AbstractTokenizer vocabulary 내에서 훈련되지 않은 토큰을 감지하는 방법 개발 [Github][arXiv](2024/05/08 version v1) 검색해 보니까 Magikarp는 포켓몬스터의 잉어킹이었다. 해본 사람은 알겠지만 잉어킹은 가장 쓸모없는 포켓몬으로 유명하다.논문 제목은 '잉어킹 낚시'로 상당히 센스가 있다.https://bulbapedia.bulbagarden.net/wiki/Magikarp_(Pok%C3%A9mon) Magikarp (Pokémon) - Bulbapedia, the community-driven Pokémon encyclopediaGeneration I Red Blue Routes 6, 10, 11, 12, 13, 17, 18, 19, 20, 21, ..
Distilling Diffusion Models into Conditional GANs (Diffusion2GAN) Abstract잠재 공간에서 작동하는 새로운 증류 손실을 통해 확산 모델을 GAN으로 추출 [Project Page][arXiv](2024/05/09 version v1)   Method Paired Noise-to-Image Translation for One-step GenerationEnsembled-LatentLPIPS for Latent Space DistillationConditional Diffusion Discriminator Paired Noise-to-Image Translation for One-step Generation DDIM sampler를 이용해 ODE 궤적을 시뮬레이션하여 ODE solution, noise 쌍을 얻고 증류 손실을 통해 G를 최적화하는 일반적인 방법. 이러한..
xLSTM: Extended Long Short-Term Memory Abstract최신 LLM 기술을 활용하여 LSTM을 수십억 피라미터로 확장 [arXiv](2024/05/07 version v1)   IntroductionLSTMRNN의 일종으로 forget gate를 통해 이전 셀의 정보를 얼마나 잊을지, input gate를 통해 새로운 정보를 얼마나 반영할지, output gate를 통해 출력을 제어한다.    Extended Long Short-Term Memory Review of the Long Short-Term Memory sLSTMLSTM이 정보를 더 잘 조절할 수 있게 하기 위해 값을 0~1로 제한하는 sigmoid gate 대신 지수 게이트를 도입하고 안정화를 위해 normalizer state를 추가한다. 지수 함수의 큰 값은 overflow를..
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model AbstractMoE를 통한 경제적인 훈련, KV 캐시 압축을 통한 효율적인 추론이 특징인 236B (활성화 피라미터 21B) MoE 모델인 DeepSeek-V2 출시 (영어, 중국어) [Github][arXiv](2024/05/08 version v2)  Architecture 언급되지 않는 사소한 세부 사항은 DeepSeek-67B를 따른다.  Multi-Head Latent Attention: Boosting Inference Efficiency Preliminaries: Standard Multi-Head Attention    Low-Rank Key-Value Joint Compression MLA는 MHA보다 훨씬 적은 양은 KV 캐시를 저장하면서도 더 나은 성능을 제공한다. (MHA, MQ..
Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? Abstract새로운 사실적 지식을 학습하는 것이 LLM에 미치는 영향을 조사  [arXiv](2024/05/13 version v2)   Quantifying Knowledge in LLMs 새로운 지식이 포함된 fine-tuning dataset D가 모델의 성능에 미치는 영향을 평가하기 위해 주로 사실적 지식으로 구성된 D의 다양한 변형을 생성한다. D는 Wikidata의 삼중항(주제, 관계, 객체)을 QA 형식으로 변환하여 구성된다. E.g. '음바페는 PSG 소속이다.' → ('음바페는 어느 팀 소속인가요?', 'PSG') 질문에 대한 올바른 답변을 알고 있을 확률인 PCorrect를 측정하고 이를 통해 지식을 분류한다. 이른바 SliCK(Sampling-based Categorization o..
You Only Cache Once: Decoder-Decoder Architectures for Language Models (YOCO) AbstractDecoder를 KV 캐시를 생성하는 self-decoder, 생성된 캐시를 재사용하는 cross-decoder로 분리하여 효율성을 향상시키고 context를 확장한다. [Github][arXiv](2024/05/09 version v2)   You Only Cache Once (YOCO) L개의 블록 중 L/2개는 self-decoder, 나머지는 cross-decoder로 구성되어 있다. Self-Decoder Self-decoder는 efficient self-attention (ESA)를 사용한다.ESA는 어떤 새로운 방법이 아니라 sliding window attention와 같이 메모리 효율적인 어떤 방법이든 상관 없다.Cross-DecoderSelf-Decoder의 출력으로 K..
AlphaMath Almost Zero: process Supervision without process Abstract MCTS(Monte Carlo Tree Search)를 활용하여 인간 주석 데이터 없이 LLM의 수학 추론 프로세스 개선 [arXiv](2024/05/06 version v1)   Preliminary 수학 문제 해결을 강화 학습의 관점에서 바라본다. 먼저 문제 해결 과정을 T개의 추론 단계로 나누고 t 시점의 상태를 s, 다음 추론을 a라 할 때, 언어 모델은 정책의 역할을 한다. 가치 함수 V를 통해 s에서 보상의 기댓값을 평가할 수 있다. V는 일반적으로 N번의 시뮬레이션을 통해 보상을 집계하는 몬테카를로 평가를 사용하여 훈련된다.    Our Method MC 평가보다 효율적인 Monte Carlo Tree Search (MCTS) 알고리즘을 통해 V를 훈련하는 방법을 제안. MC..