본문 바로가기

논문 리뷰

(449)
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites (InternVL-1.5) Abstract동적 고해상도 처리, 고품질 이중언어 데이터셋으로 훈련 [Github][arXiv](2024/04/25 version v1)   InternVL 1.5   Strong Vision Encoder 기존 MLLM의 ViT는 고정된 저해상도(224×224), 인터넷에서 크롤링한 이미지로 훈련된다.  InternViT-6B-448px-V1.2뒤에서 4번째 레이어의 feature가 multi-modal task에 가장 적합하다고 한다.따라서 InternViT-6B의 마지막 3개 레이어 제거, 해상도 향상(448), Nous Hermes 2 - Yi-34B와 통합.  InternViT-6B-448px-V1.5 해상도를 동적으로 입력받을 수 있도록 확장하고 규모, 품질, 다양성이 향상된 데이터에 대해 ..
Layer Skip: Enabling Early Exit Inference and Self-Speculative Decoding Abstract레이어를 조기 종료하고 병렬로 검증하여 보조 모델 없이 빠르게 디코딩 [arXiv](2024/04/25 version v1)   IntroductionSpeculative Decoding은 보조 모델이 필요하다. 본문에서는 추가적인 모델이나 레이어가 필요하지 않은 Self Speculative Decoding을 제안한다.    Motivation Exiting Earlier in LLMs Llama 7B 각 레이어의 출력을 LM head에 투영하여 해당 레이어에서 예측된 토큰을 확인했다. 관찰 결과, 올바른 토큰을 예측하는 데 모든 레이어가 필요한 것은 아니었다. 평균적으로 23.5개의 레이어가 필요했다. Layer dropout을 사용하여 모델이 후기 레이어보다 초기 레이어에 더 의존하..
CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data AbstractImage-text pretraining을 분류 작업으로 재구성하여 성능을 유지하면서도 빠르게 훈련할 수 있는 CatLIP 제안 [Github][arXiv](2024/04/24 version v1)   CatLIP: Contrastive to Categorical Learning 대조 학습을 통한 image-text pretraining을 분류 작업으로 casting 한다.Global pair와의 유사성을 계산해야 하는 대조 학습보다 훨씬 빠르다.  Caption-derived classification labels아래와 같은 과정을 통해 웹에서 image-text 데이터를 수집하여 기존의 CC3M dataset을 증강한다.이 과정에서 WordNet이 사용되므로 class 대신 synset..
On the Representation Collapse of Sparse Mixture of Experts (X-MoE) AbstractMoE의 표현 붕괴 문제를 완화하고 더 안정적인 라우팅을 제공하는 X-MoE [Github][arXiv](2022/10/12 version v3)   Background Mixture-of-Experts의 역사 Hidden state h와 각 전문가 임베딩 e (전문가 가중치와 다릅니다. 라우팅을 위한 벡터임.)의 내적으로 라우팅 점수를 계산한다. 전문가의 출력에 라우팅 가중치를 곱하고 잔차 연결을 더한 것이 MoE layer의 출력이다. (아래 수식은 Top-1의 경우)  Representation Collapse of Sparse Mixture-of-Experts 수식에 대한 도출 과정이 있긴 한데 생략하고 도출된 수식의 형태만 보자.아래 수식은 입력 h에 대한 jacobian matr..
Multi-Head Mixture-of-Experts (MH-MoE) AbstractInput token을 sub-token으로 분해한 뒤 여러 expert에 할당하여 expert 활성률을 높이고 더 나은 이해력 제공 [arXiv](2024/04/23 version v1)   MethodMulti-Head Mixture-of-Experts 별 거 없음. 토큰을 투영하고, 나누고, MoE 수행하고, 붙이고, 투영하고, 끝.각 전문가의 내부 차원을 스케일링하여 투영과 multi-head로 인해 추가된 계산량의 균형을 맞춘다. Training Objectives Load balancing loss MoE에서 가장 흔하게 사용되는 손실. 라우팅 확률과 실제 라우팅된 비율의 내적.  Task specific loss     Experiments MH-MoE는 X-MoE를 기반으로..
OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework AbstractLayer-wise scaling을 적용한 경량 언어 모델인 OpenELM의 모든 정보, 프레임워크를 투명하게 공개 [HuggingFace Model Release][Github][arXiv](2024/04/22 version v1)   Pre-training OpenELM architecture FFN에서 bias를 사용하지 않음RMSNorm(Pre-Norm), RoPEGrouped query attention FFN에서 SwiGLU 사용Flash attentionLlama와 동일한 tokenizerDecoder-only model  Layer-wise scaling 각 레이어별로 attention head 수, FFN의 hidden state dimention을 다르게 할당한다.DeL..
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions AbstractLLM에 명령어 계층을 도입하여 악의적 prompt를 선택적으로 무시할 수 있도록 한다. [arXiv](2024/04/19 version v1)   The Instruction Hierarchy LLM에 명령어 계층을 만들어 명령어 충돌 시 상위의 명령을 따르도록 할 것을 제안.  Training Data Generation for Different Attacks 명령을 조각으로 분해하고 분해된 각 명령을 계층 구조의 각 level에 배치하고 모델을 교육한다. (예: '스페인어로 20줄 시 쓰기'라는 명령의 경우 시 쓰기, 스페인어 사용, 20줄 작성으로 분해)잘못 정렬된 명령(상위 계층의 명령에 반함)의 경우 명령을 본 적이 없는 것처럼 답변을 생성하도록 한다. 훈련 데이터로는 LLM을 ..
Phi-3 Technical Report [MS Blog][arXiv](2024/04/23 version v2) Introduction오직 훈련 데이터만 변경함으로써 작은 3.8B 모델로 타 대형 모델에 필적하는 성능을 달성했다.   Technical SpecificationsPhi-3-mini (3.8B)Decoder architecture기본 context 길이: 4KLongRoPE를 이용한 context 확장 버전: 128KLlama2와 동일한 어휘 크기 32064의 tokenizer를 사용, 블록 구조도 비슷해 llama2의 목적의 모든 패키지를 적용할 수 있다.3072 hidden dimention , 32 heads, 32 layers3.3T 토큰, bfloat16으로 훈련 4-bits 양자화로 1.8GB의 메모리만 차지하며 iPho..
AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation AbstractHTML의 계층적 구조와 LLM을 활용하여 확장성이 뛰어난 crawler인 AutoCrawler 제안 [Github][arXiv](2024/04/19 version v1)   AutoCrawler Modeling 원하는 정보를 추출하기 위해 웹페이지에 대한 행동 시퀀스 A를 생성한다.  XPath: 문서를 탐색하고 변환할 수 있는 쿼리 언어.   마지막을 제외한 모든 행동은 웹페이지를 정리하는 데 사용되며 마지막 행동은 정보를 추출하는 데 사용된다. Progressive GenerationAutoCrawler는 Reflexion과 다르게 반복마다 DOM tree를 정리하여 웹페이지 크기를 줄인다.4: 현재 HTML code h와 작업 지시 I를 바탕으로 LLM이 예상 value와 XPath..
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models AbstractRegion encoding을 기반으로 region-level task에 능숙한 MLLM인 Groma 소개 [Project Page][Github][arXiv](2024/04/19 version v1)   Method Model Architecture Image EncoderDINOv2: CLIP보다 고해상도에서 fine-grained feature를 포착하는 데 더 적합하다.LLM에 입력되는 토큰 수를 줄이기 위해 인접한 4개의 패치를 하나로 연결한다.  Region Proposer Deformable DETR의 head를 이진 분류기로 대체하여 region proposer로 사용.  Region Encoder GLaMM의 region encode..
TextSquare: Scaling up Text-Centric Visual Instruction Tuning Abstract대규모 고품질 VQA 데이터셋을 통해 MLLM의 성능, 특히 텍스트 인식을 크게 향상. [arXiv](2024/04/19 version v1)   Square-10M: A Massive and High-quality Text-Centric VQA Instruction Tuning Dataset   Data Generation: Self-Questioning, Answering, and Reasoning Stage 1: Self-Questioning Gemini Pro를 통해 질문 생성.추가로 요즘 MLLM은 텍스트 이해 능력이 약하기 때문에 OCR 모델을 통해 추출된 텍스트를 프롬프트 앞에 추가.  Stage 2: Answering 답변 생성.  St..
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing (AlphaLLM) Abstract Monte Carlo Tree Search (MCTS)를 통합하여 LLM self-improvement [arXiv](2024/04/18 version v1) AlphaLLM ηMCTS Option-level MCTS 'Option'을 정의하여 Monte Carlo Tree Search(MCTS)의 단위로 설정하였다. Option은 다음과 같이 정의된다. o = ⟨I, π, β⟩ Option-level MCTS의 작업 흐름: 선택: Upper Confidence Bound 알고리즘에 따라 노드를 선택 확장: 종료 조건이 만족될 때까지 정책 π를 사용하여 토큰을 샘플링 시뮬레이션 역전파 Importance Weighted Expansion 각 노드의 중요도를 측정하고 중요도에 비례하여 자식..