본문 바로가기

논문 리뷰/Language Model

(148)
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning AbstractImage pretrained MLLM을 비디오에 간단하고 효과적으로 적용하기 위한 방법 조사 [Project Page][Github][arXiv](2024/04/25 version v1)   Method & Analysis Failure Cases Analysis for Applying Image MLLMs 사전 훈련된 인코더를 통해 비디오의 각 프레임을 인코딩하고 LLM에 입력하는 n-frame 시나리오에서 문제 분석.  Vulnerability to prompts OOD(out-of-distribution) prompt를 사용하면 답변의 품질이 급격하게 저하된다.반면 PLLaVA는 일관된 길이의 답변을 출력한다.  Dominant tokens 히스토그램은 모델 전반에 걸친 visio..
FILM: Make Your LLM Fully Utilize the Context AbstractLong-context의 중간에 필요한 정보를 배치하고 훈련하는 In2 training을 통해 long-context에서의 성능 향상 [Github][arXiv](2024/04/26 version v2)   Introduction연구진은 LLM이 긴 context의 중간에서 길을 잃는 원인이 훈련 데이터의 의도하지 않은 편향에서 비롯된다는 가설을 세웠다. 시스템 메시지는 context의 시작 부분에 표시되며 다음 토큰 예측에 대한 손실은 인근 토큰의 영향을 받을 확률이 크기 때문에 결과적으로 중요한 정보가 항상 context의 시작과 끝에 위치한다는 암시적 위치 편향을 도입할 수 있다.    Information-Intensive Training Training Data Construct..
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites (InternVL-1.5) Abstract동적 고해상도 처리, 고품질 이중언어 데이터셋으로 훈련 [Github][arXiv](2024/04/25 version v1)   InternVL 1.5   Strong Vision Encoder 기존 MLLM의 ViT는 고정된 저해상도(224×224), 인터넷에서 크롤링한 이미지로 훈련된다.  InternViT-6B-448px-V1.2뒤에서 4번째 레이어의 feature가 multi-modal task에 가장 적합하다고 한다.따라서 InternViT-6B의 마지막 3개 레이어 제거, 해상도 향상(448), Nous Hermes 2 - Yi-34B와 통합.  InternViT-6B-448px-V1.5 해상도를 동적으로 입력받을 수 있도록 확장하고 규모, 품질, 다양성이 향상된 데이터에 대해 ..
Layer Skip: Enabling Early Exit Inference and Self-Speculative Decoding Abstract레이어를 조기 종료하고 병렬로 검증하여 보조 모델 없이 빠르게 디코딩 [arXiv](2024/04/25 version v1)   IntroductionSpeculative Decoding은 보조 모델이 필요하다. 본문에서는 추가적인 모델이나 레이어가 필요하지 않은 Self Speculative Decoding을 제안한다.    Motivation Exiting Earlier in LLMs Llama 7B 각 레이어의 출력을 LM head에 투영하여 해당 레이어에서 예측된 토큰을 확인했다. 관찰 결과, 올바른 토큰을 예측하는 데 모든 레이어가 필요한 것은 아니었다. 평균적으로 23.5개의 레이어가 필요했다. Layer dropout을 사용하여 모델이 후기 레이어보다 초기 레이어에 더 의존하..
On the Representation Collapse of Sparse Mixture of Experts (X-MoE) AbstractMoE의 표현 붕괴 문제를 완화하고 더 안정적인 라우팅을 제공하는 X-MoE [Github][arXiv](2022/10/12 version v3)   Background Mixture-of-Experts의 역사 Hidden state h와 각 전문가 임베딩 e (전문가 가중치와 다릅니다. 라우팅을 위한 벡터임.)의 내적으로 라우팅 점수를 계산한다. 전문가의 출력에 라우팅 가중치를 곱하고 잔차 연결을 더한 것이 MoE layer의 출력이다. (아래 수식은 Top-1의 경우)  Representation Collapse of Sparse Mixture-of-Experts 수식에 대한 도출 과정이 있긴 한데 생략하고 도출된 수식의 형태만 보자.아래 수식은 입력 h에 대한 jacobian matr..
Multi-Head Mixture-of-Experts (MH-MoE) AbstractInput token을 sub-token으로 분해한 뒤 여러 expert에 할당하여 expert 활성률을 높이고 더 나은 이해력 제공 [arXiv](2024/04/23 version v1)   MethodMulti-Head Mixture-of-Experts 별 거 없음. 토큰을 투영하고, 나누고, MoE 수행하고, 붙이고, 투영하고, 끝.각 전문가의 내부 차원을 스케일링하여 투영과 multi-head로 인해 추가된 계산량의 균형을 맞춘다. Training Objectives Load balancing loss MoE에서 가장 흔하게 사용되는 손실. 라우팅 확률과 실제 라우팅된 비율의 내적.  Task specific loss     Experiments MH-MoE는 X-MoE를 기반으로..
OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework AbstractLayer-wise scaling을 적용한 경량 언어 모델인 OpenELM의 모든 정보, 프레임워크를 투명하게 공개 [HuggingFace Model Release][Github][arXiv](2024/04/22 version v1)   Pre-training OpenELM architecture FFN에서 bias를 사용하지 않음RMSNorm(Pre-Norm), RoPEGrouped query attention FFN에서 SwiGLU 사용Flash attentionLlama와 동일한 tokenizerDecoder-only model  Layer-wise scaling 각 레이어별로 attention head 수, FFN의 hidden state dimention을 다르게 할당한다.DeL..
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions AbstractLLM에 명령어 계층을 도입하여 악의적 prompt를 선택적으로 무시할 수 있도록 한다. [arXiv](2024/04/19 version v1)   The Instruction Hierarchy LLM에 명령어 계층을 만들어 명령어 충돌 시 상위의 명령을 따르도록 할 것을 제안.  Training Data Generation for Different Attacks 명령을 조각으로 분해하고 분해된 각 명령을 계층 구조의 각 level에 배치하고 모델을 교육한다. (예: '스페인어로 20줄 시 쓰기'라는 명령의 경우 시 쓰기, 스페인어 사용, 20줄 작성으로 분해)잘못 정렬된 명령(상위 계층의 명령에 반함)의 경우 명령을 본 적이 없는 것처럼 답변을 생성하도록 한다. 훈련 데이터로는 LLM을 ..
Phi-3 Technical Report [MS Blog][arXiv](2024/04/23 version v2) Introduction오직 훈련 데이터만 변경함으로써 작은 3.8B 모델로 타 대형 모델에 필적하는 성능을 달성했다.   Technical SpecificationsPhi-3-mini (3.8B)Decoder architecture기본 context 길이: 4KLongRoPE를 이용한 context 확장 버전: 128KLlama2와 동일한 어휘 크기 32064의 tokenizer를 사용, 블록 구조도 비슷해 llama2의 목적의 모든 패키지를 적용할 수 있다.3072 hidden dimention , 32 heads, 32 layers3.3T 토큰, bfloat16으로 훈련 4-bits 양자화로 1.8GB의 메모리만 차지하며 iPho..
AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation AbstractHTML의 계층적 구조와 LLM을 활용하여 확장성이 뛰어난 crawler인 AutoCrawler 제안 [Github][arXiv](2024/04/19 version v1)   AutoCrawler Modeling 원하는 정보를 추출하기 위해 웹페이지에 대한 행동 시퀀스 A를 생성한다.  XPath: 문서를 탐색하고 변환할 수 있는 쿼리 언어.   마지막을 제외한 모든 행동은 웹페이지를 정리하는 데 사용되며 마지막 행동은 정보를 추출하는 데 사용된다. Progressive GenerationAutoCrawler는 Reflexion과 다르게 반복마다 DOM tree를 정리하여 웹페이지 크기를 줄인다.4: 현재 HTML code h와 작업 지시 I를 바탕으로 LLM이 예상 value와 XPath..
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models AbstractRegion encoding을 기반으로 region-level task에 능숙한 MLLM인 Groma 소개 [Project Page][Github][arXiv](2024/04/19 version v1)   Method Model Architecture Image EncoderDINOv2: CLIP보다 고해상도에서 fine-grained feature를 포착하는 데 더 적합하다.LLM에 입력되는 토큰 수를 줄이기 위해 인접한 4개의 패치를 하나로 연결한다.  Region Proposer Deformable DETR의 head를 이진 분류기로 대체하여 region proposer로 사용.  Region Encoder GLaMM의 region encode..
TextSquare: Scaling up Text-Centric Visual Instruction Tuning Abstract대규모 고품질 VQA 데이터셋을 통해 MLLM의 성능, 특히 텍스트 인식을 크게 향상. [arXiv](2024/04/19 version v1)   Square-10M: A Massive and High-quality Text-Centric VQA Instruction Tuning Dataset   Data Generation: Self-Questioning, Answering, and Reasoning Stage 1: Self-Questioning Gemini Pro를 통해 질문 생성.추가로 요즘 MLLM은 텍스트 이해 능력이 약하기 때문에 OCR 모델을 통해 추출된 텍스트를 프롬프트 앞에 추가.  Stage 2: Answering 답변 생성.  St..