본문 바로가기

분류 전체보기

(540)
Diffusion for World Modeling: Visual Details Matter in Atari (DIAMOND) AbstractDiffusion world model에서 훈련된 RL agent인 DIAMOND (DIffusion As a Model Of eNvironment Dreams) 소개  [Github][arXiv](2024/05/20 version v1)    Introduction실제 환경이 아닌 diffusion model이 생성한 world에서 RL agent를 훈련한다. DM은 이전 장면과 agent의 행동을 반영하여 다음 장면을 생성한다.    Method 알고리즘: 먼저 정책 πϕ를 통해 실제 환경에서 데이터 수집→ World model인 diffusion model 업데이트→ 보상 및 종료를 담당하는 모델 R (LSTM) 업데이트→ Actor-Critic model로써 πϕ, Vϕ 업데이트  ..
SimPO: Simple Preference Optimization with a Reference-Free Reward AbstractDPO보다 간단하면서도 더 효과적인 SimPO 제안 [Github][arXiv](2024/05/23 version v1)   IntroductionSimPO의 장점:Simplicity: DPO 및 다른 접근 방식에 비해 가볍고 구현하기 쉬움Significant performance advantage: 단순함에도 불구하고 최신 방법들보다 뛰어난 성능을 보여줌Minimal length exploitation: 응답 길이를 크게 늘리지 않음. (RLHF는 출력이 길어지는 편향이 있다.)    SimPO: Simple Preference Optimization DPO는 명시적인 보상 모델을 학습하는 대신 암묵적으로 보상을 reparameterize 하여 다음과 같은 목표를 사용한다. A Simpl..
RLHF Workflow: From Reward Modeling to Online RLHF Abstract선호도 모델을 구성하고, 인간 피드백을 근사하고, online iterative RLHF에 대해 재현하기 쉽고 자세한 레시피를 제공하는 것이 목표 [Github - Reward Modeling][Github - Online RLHF][arXiv](2024/05/13 version v1)   Introduction강화학습 튜토리얼:강화 학습 대체 뭐냐?REINFORCE — a policy-gradient based reinforcement Learning algorithmLLM을 정책 π로 간주하며, prompt x를 받아서 π(·|x)의 분포에서 응답 a를 생성한다.π0는 정책의 초기 상태를 가리킨다. RLHF의 핵심 구성요소는 다음과 같은 preference oracle이다. 일반적으로 ..
Your Transformer is Secretly Linear AbstractTransformer decoder layer 간의 높은 선형성을 식별하고 이를 활용할 수 있는 방법 제안 [arXiv](2024/05/19 version v1)   Analysis of Pretrained Architectures Linearity Score 선형성 점수는 정규화된 행렬 X̃, Ỹ가 있을 때, 선형 변환 A를 적용하여 차이의 최솟값을 구하고 그것을 1에서 뺀다. 레이어 입, 출력 임베딩 세트에 대해 선형성 점수를 계산한다.놀랍게도 거의 모든 transformer decoder의 선형성 점수가 1에 가까웠다. Residual stream을 빼면 선형성이 상당히 감소했다. Linearity Dynamics at Pretraining and Fine-tuning Pre-tr..
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning AbstractNon-parameter 연산자를 통해 LoRA와 동일한 피라미터 수를 유지하면서도 high-rank update를 달성하는 MoRA 제안 [Github][arXiv](2024/05/20 version v1)   Analysis the Influence of Low-rank Updating LoRA (Low-Rank Adaptation)는 기존 지식은 잘 활용하지만 새로운 지식을 기억해야 할 때는 FFT (Full-FineTuning)에 비해 성능이 떨어진다.    Method 핵심은 가능한 적은 피라미터를 유지하면서도 ∆W의 rank를 높이는 것이다.정사각 행렬을 사용하면 동일한 피라미터에서 가장 높은 rank를 가질 수 있다. Non-parameter 연산자를 통해 입출력 차원을 조절한..
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention AbstractMulti-Query Attention을 한 단계 발전시켜 레이어 간 KV cache를 공유하는 Cross-Layer Attention 제안 [arXiv](2024/05/21 version v1)   Cross-Layer Attention Background: Multi-Query Attention, Grouped-Query Attention  Sharing KV Activations Across Layers 단일 레이어 내에서 KV heads를 공유하는 것처럼, 레이어 간에도 공유할 것을 제안한다.그러한 아키텍처를 Cross-Layer Attention이라고 명명. 일부 레이어에서만 KV projection를 계산하고 projection이 없는 레이어는 이전 계층의 KV를 재사용한다. M..
LoRA Learns Less and Forgets Less AbstractCode&math에서 LoRA와 full-finetuning의 차이를 비교, 분석 [arXiv](2024/05/15 version v1)   IntroductionFull-finetuning은 code&math에서 LoRA보다 정확하고 샘플 효율적이다.LoRA는 강력한 정규화를 제공하여 source domain을 덜 잊어버린다.LoRA는 full-finetuning보다 하이퍼피라미터에 더 민감하다. 연구진은 결론적으로 IFT에 LoRA를 사용할 것을 추천했다. (All LoRA, 낮은 rank 채택)IFT의 좋은 성능, 높은 망각 특징을 LoRA가 보완해 줄 수 있기 때문이다.   Results6개 설정의 LoRA를 훈련한다. (module = [Attention, MLP, All], ra..
FIFO-Diffusion: Generating Infinite Videos from Text without Training Abstract사전 훈련된 확산 모델을 기반으로 추가 훈련 없이 무한히 긴 비디오를 생성할 수 있는 FIFO-Diffusion 제안 [Project Page][Github][arXiv](2024/05/19 version v1)   FIFO-Diffusion Diagonal denoising 방법은 간단하다. Timestep을 프레임과 같은 f로 나눈 후 다음과 같이 처리한다. 빨간 실선으로 둘러싸인 프레임들이 한 번에 계산되는 프레임들이다.중요한 것은 기존의 비디오 확산 모델처럼 모든 프레임이 모든 같은 timestep을 공유하지 않는다는 것이다. 프레임 간의 거리는 timestep 간의 거리와 같다.   Latent partitioning 원본 확산 모델은 모든 프레임에서 같은 timestep을 예측..
Chameleon: Mixed-Modal Early-Fusion Foundation Models Abstract사전 훈련된 각 modal-encoder와 LLM을 사용하는 대신 end-to-end 방식으로 처음부터 훈련된 mixed-modal model인 Chameleon 소개 [arXiv](2024/05/16 version v1) Chameleon은 Meta에서 이미 5개월 전에 훈련을 완료했으며 지금은 훨씬 더 발전했다고 한다.   Pre-Training  TokenizationImage tokenizerMake-A-Scene의 image tokenizer를 기반으로 이미지 패치를 8192개의 codebook vector 중 하나로 인코딩. Tokenizer8192개의 이미지 코드를 포함한 65536 vocabulary size의 BPE tokenizer. Pre-Training Data 사전 ..
The Platonic Representation Hypothesis AbstractDeep networks는 modality 전반에 걸쳐 플라톤의 이상적인 현실 개념과 유사한 현실의 공유된 통계 모델을 향해 수렴되고 있다. 연구진은 그러한 표현을 platonic representation이라 명명하고 이에 대해 논의한다. [Project Page][Github][arXiv](2024/05/13 version v1)   Introduction최신 AI system은 각 modality 처리를 위해 다른 아키텍처를 사용하는 대신 단일 모델로 통합되고 있으며 (e.g. GPT4-V) 점점 더 많은 분야에서 이러한 foundation model을 채택하고 있다. The Platonic Representation Hypothesis:이미지 표현 X, 텍스트 표현 Y는 공통된 현실..
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection AbstractGrounding DINO에서 탐지 성능, 추론 속도 개선 [Github][arXiv](2024/05/16 version v1)   Model Training Grounding DINO 1.5 Pro 1. 더 큰 vision backbone 사용: ViT-L2. 훈련 중 negative sample의 비율을 높임3. Grounding-20M이라고 하는 고품질 grounding dataset을 제작하여 훈련함 Grounding DINO 1.5 Edge  Image backbone은 feature enhancer에 multi-scale feature를 제공하는데, 저해상도 feature는 enhancer의 계산량만 가중시킬 뿐 많은 정보가 존재하지 않으므로 P5-level feature만 제..
Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models AbstractTokenizer vocabulary 내에서 훈련되지 않은 토큰을 감지하는 방법 개발 [Github][arXiv](2024/05/08 version v1) 검색해 보니까 Magikarp는 포켓몬스터의 잉어킹이었다. 해본 사람은 알겠지만 잉어킹은 가장 쓸모없는 포켓몬으로 유명하다.논문 제목은 '잉어킹 낚시'로 상당히 센스가 있다.https://bulbapedia.bulbagarden.net/wiki/Magikarp_(Pok%C3%A9mon) Magikarp (Pokémon) - Bulbapedia, the community-driven Pokémon encyclopediaGeneration I Red Blue Routes 6, 10, 11, 12, 13, 17, 18, 19, 20, 21, ..