분류 전체보기 (539) 썸네일형 리스트형 Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length Abstract 기존의 Mega를 개선하여 무제한 context 길이로 효율적인 시퀀스 모델링을 가능하게 하는 Megalodon 제안 [Github] [arXiv](2024/04/16 version v2) Background: Moving Average Equipped Gated Attention (MEGA) 이전 연구인 Mega를 간략하게 검토한다. 입, 출력 시퀀스 표기: X = {x1, x2, . . . , xn} and Y = {y1, y2, . . . , yn} Mega와 Megalodon은 attention을 사용하고 있지만 timestep에 걸쳐 지속적으로 변경되는 어떤 state를 가지고 있다는 점에서 state space model과도 유사하다. Multi-dimensional Dampe.. Learn Your Reference Model for Real Good Alignment (TR-DPO) Abstract 학습 중에 참조 정책을 업데이트하는 TR-DPO (Trust Region DPO) 제안 [arXiv](2024/04/15 version v1) Method Vanilla DPO는 고정된 참조 정책을 사용하지만 본문에서는 참조 정책을 업데이트할 것을 제안한다. Soft update의 정도는 α의 값에 따라 결정되며 hard update는 𝜏 training step 후에 정책을 직접 대체한다. Experiments 실험에는 Pythia 모델을 사용한다. 제안하는 방법론은 엄청나게 간단하고, 이후 다방면의 분석을 내놓고 있지만 결론적으로 𝛼 = 0.5 ~ 0.7, 𝜏 = 256 ~ 512의 값이 제일 적절하다고 말하고 있다. Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models Abstract 3가지 주요 디자인을 통해 Ferret을 대폭 업그레이드한 Ferret-v2 공개 Any resolution grounding and referring Multi-granularity visual encoding A three-stage training paradigm [arXiv](2024/04/11 version v1) Methods A Revisit of Ferret [Ferret 논문 리뷰] Ferret은 자유 형식 마스크가 있는 이미지를 '이름 + [좌표] + '의 형식으로 LLM에 입력하며, 토큰은 visual sampler를 통해 생성된 임베딩이다. 추가로 CLIP image encoder로 추출한 feature를 제공한다. 훈련에는 image-caption alignment.. JetMoE: Reaching Llama2 Performance with 0.1M Dollars Abstract SMoE를 채택하여 10만 달러 미만의 비용으로 효율적이고 뛰어난 성능을 보여주는 JetMoE-8B 모델 소개 [Website] [Github] [arXiv](2024/04/11 version v1) Introduction Mixture-of-Experts를 attention, MLP layer 모두에 적용한 ModuleFormer에서 영감을 받아 Sparsely-gated Mixture-of-Experts (SMoE)를 채택하였다. Model Architecture Mixture of Experts 라우터의 출력에서 top-K logits을 선택하고 최종 출력은 전문가 출력의 가중합으로 계산된다. Attention Expert Attention layer에는 4개의 projection .. ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback Abstract Cycle consistency를 명시적으로 최적화하여 이미지 제어를 향상시키는 ControlNet++ 제안 [Project Page] [Github] [arXiv](2024/04/11 version v1) [ControlNet 논문 리뷰] Introduction CycleGAN에서 영감을 받아 조건으로 이미지를 생성한 후 다시 조건으로 회귀할 수 있는 cycle consistency를 이용할 것을 제안. Method Reward Controllability with Consistency Feedback Reward consistency loss 정의: L = 픽셀 공간 손실 측정 함수, G = stable diffusion, D = 탐지 등의 조건 변환 모델 이미지 생성 기능이 손상 되.. Rho-1: Not All Tokens Are What You Need Abstract Hard token을 무시하고 useful token만을 선택적으로 훈련하는 Selective Language Modeling (SLM)을 사용하여 LLM pretraining의 훈련 효율성과 성능을 모두 향상시킨다. [Github] [arXiv](2024/04/11 version v1) Introduction 철저한 필터링에도 불구하고 훈련 데이터에는 노이즈 토큰이 많이 포함되어 있다. Rho-1은 이러한 'hard token'의 손실을 선택적으로 제거하는 Selective Language Modeling (SLM) 목표로 훈련되었다. Selective Language Modeling Not All Tokens Are Equal: Training Dynamics of Token Loss.. Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention Abstract 압축 메모리와 linear attention을 활용하여 제한된 메모리에서도 무한히 긴 context를 처리할 수 있는 Infini-attention 제안 [arXiv](2024/04/10 version v1) Introduction Infini-attention은 오래된 KV state를 버리지 않고 압축 메모리에 저장하며 후속 토큰을 처리할 때 메모리에서 값을 검색하여 집계한다. 후술 하겠지만 실제로 저장과 검색이 수행되는 것은 아니다. Method Infini-attention Scaled Dot-product Attention Compressive Memory 1. Memory retrieval 검색이라는 단어를 계속 사용하고 있지만 '압축'이라는 말이 들어가 있듯 실제로 KV의 리.. LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders Abstract LLM을 text encoder로 변환하는 효율적이고 간단한 비지도 접근 방식인 LLM2Vec 제안 [Project Page] [Blog] [Github] [arXiv](2024/04/09 version v1) LLM2Vec Three simple ingredients 먼저 bidirectional attention을 활성화하고 masked next token prediction 목표에 대해 모델을 훈련한다. 이 단계에서 decoder-only LLM을 word-level encoder로 변환할 수 있다. 추가적으로 입력 시퀀스가 주어지면 독립적으로 샘플링된 dropout mask를 사용하여 동일한 시퀀스에 대한 2가지 다른 표현을 생성하고 두 표현 간의 유사도를 최대화, 배치 내의 다른.. Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs Abstract 긴 종횡비를 가진 UI 화면을 이해하고 상호작용할 수 있는 Ferret-UI 제안 [arXiv](2024/04/08 version v1) Method Ferret을 기반으로 구축되었다. UI 이미지의 특징은 확장된 종횡비이다. 이전 연구들에서 'anyres' 아이디어를 Ferret에 적용해 단일 이미지에 의존하지 않고 이미지의 종횡비를 기반으로 1×2 또는 2×1 그리드를 추가로 인코딩한다. Dataset and Task Formulation 공개적으로 사용 가능한 UI dataset을 수집한 후 UI 감지 모델을 사용하여 UI 유형 (버튼, 아이콘, 그림 등) 및 표시된 텍스트를 감지한다. GPT-3.5-Turbo를 사용해 기본적인 훈련 샘플 생성. (실제 이미지 대신 감지 결과를 사용.. MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators Abstract Time-lapse video를 통해 실제 물리 지식을 학습하여 metamorphic video 생성이 가능한 MagicTime [Project Page] [Github] [arXiv](2024/04/07 version v1) Methodology ChronoMagic Dataset Data Curation and Filter Youtube에서 time-lapse video를 수집하고 이하 설명할 단계를 거쳐 최종적으로 2265개의 time-lapse video가 포함된 ChronoMagic dataset 제작. Cascade Preprocessing OpenCV로 pixel intensity 차이를 계산하고 CLIP으로 프레임 간 cosine similarity를 측정하여 복잡한 장면 .. ReFT: Representation Finetuning for Language Models Abstract 가중치 대신 표현을 수정하는 Representation Fine-Tuning (ReFT)의 개념과 low-rank를 활용하여 효율적으로 표현에 개입할 수 있는 LoReFT 제안 [Github] [arXiv](2024/04/08 version v2) ReFT 용어 정의: 입력 시퀀스 x = (x1, ..., xn)는 layer l에서 hidden state hn(l)로 임베딩된다. m layer transformer에서 다음 토큰 xn+1의 확률은 다음과 같이 표현될 수 있다. 여기서 W는 logits으로 매핑하는 행렬 Low-rank Linear Subspace ReFT (LoReFT) 공식은 다음과 같다. h를 low-rank로 투영하여 표현을 수정한다. 피라미터는 다음과 같고 R은 l.. CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching Abstract 정확한 text-image 정렬을 가능하게 하는 end-to-end fine-tuning 전략인 CoMat 제안 [Project Page] [Github] [arXiv](2024/04/04 version v1) Method Concept Matching Attribute Concentration Fidelity Preservation Concept Matching Captioning model이 생성된 이미지를 보고 prompt의 다음 단어를 예측할 확률을 통해 text-image 정렬을 측정. Attribute Concentration spaCy를 통해 prompt를 구문 분석하여 명사, 속성 쌍 {n, a}을 수집하고 일부 명사 필터링.(e.g. 추상 명사, 배경을 설명하는 명사, 지.. 이전 1 ··· 6 7 8 9 10 11 12 ··· 45 다음