본문 바로가기

논문 리뷰/Language Model

(148)
DiffusionGPT: LLM-Driven Text-to-Image Generation System LLM agent system을 통해 prompt에 적합한 확산 모델을 동적으로 선택하여 이미지 생성 [Project Page] [Github] [arXiv](2024/01/18 version v1) Abstract LLM을 통해 prompt를 분석하고 도메인별 전문가 확산 모델을 통합할 수 있는 시스템인 DiffusionGPT 제안 여기서 전문가 확산 모델: Civitai와 같은 개인화 모델들을 말함 Methodology Prompt Parse Tree-of-thought of Models Model Selection Execution of Generation Prompt Parse LLM이 prompt를 분석하여 확산 모델에 사용할 적절한 prompt를 생성한다. Prompt-based : "a do..
Towards Conversational Diagnostic AI (AMIE) AI가 의사를 뛰어넘었다고 한다 ㄷㄷ [arXiv](2024/01/11 version v1) Nature article : Google AI는 인간 의사보다 더 나은 침상 매너를 갖추고 있으며 더 나은 진단을 제공합니다. Abstract Self-play 시뮬레이션 환경을 통해 의료 진단에 최적화된 AI system인 AMIE (Articulate Medical Intelligence Explorer) 제안 AMIE: An LLM based AI System for Diagnostic Dialogue Real-world Datasets for AMIE 미국 의사 면허 시험 객관식 스타일 문제 MedQA MultiMedBench의 QA 질문에 대해 전문가가 작성한 long-form Medical QA 의료..
Mixtral of Experts (Mixtral 8x7B) [Project Page] [arXiv](2024/01/08 version v1) Abstract Mistral 7B와 동일하지만 각 레이어가 8개의 feedforward block으로 구성된 Sparse Mixture of Experts (SMoE) 모델인 Mixtral 8x7B 소개 LLaMA2 70B와 대등하거나 그 이상... Architectural details Mistral 7B와 다른점은 32K token의 조밀한 context 길이를 지원하고 FF를 MoE로 대체했다. Mistral 7B Mixtral 8x7B Sparse Mixture of Experts Mixture of Experts: gating network G를 통해 전문가를 선택한다. V-MoE: Transformer의 경우 ..
Mistral 7B 효율성이 높은 LLaMA2 기반 모델. LLaMA2 보다 성능 좋음. [Project Page] [Github] [arXiv](2023/10/10 version v1) Model Architecture Sliding Window Attention Window size W개의 이전 토큰에 대해 attention을 수행한다. 이전 토큰은 또다시 이전 레이어에서 이전 토큰에 대한 attention을 수행하므로 마지막 레이어의 토큰은 최대 약 13만개(4096x32) 토큰의 영향을 받는다. FlashAttention과 xFormers를 추가로 채택하여 Vanilla attention에 비해 2배의 속도 향상을 얻었다. Rolling Buffer Cache 고정된 캐시 크기를 사용한다. 아래 그림은 캐시 크기 =..
TinyLlama: An Open-Source Small Language Model [Github] [arXiv](2024/01/04 version v1) Abstract LLaMA2의 architecture, tokenizer를 기반으로 3 epochs에 걸쳐 1T 개의 토큰으로 pretraining 된 1.1B 언어 모델인 TinyLlama 소개 Introduction Chinchilla scaling raw에서 제시하는 것보다 훨씬 더 많은 토큰으로 훈련했을 때 작은 모델의 행동을 탐구하기 위해 3T 개의 토큰을 사용해 1.1B decoder-only transformer를 훈련한다. Pretraining Pre-training data SlimPajama : 대부분 영어로 구성된 1.2T token dataset인 RedPajama에서 저품질 데이터를 필터링하고 중복을 제거하여 ..
DocLLM: A layout-aware generative language model for multimodal document understanding [arXiv](2023/12/31 version v1) Abstract LLM이 layout을 고려하여 시각적 문서를 추론하도록 경량으로 확장한 DocLLM 소개 DocLLM Framework Model Architecture Baseline: LLaMA2 OCR을 사용하여 얻은 text token과 공간 정보를 별개의 양식으로 취급하여 별개의 벡터를 사용한다. Disentangled Spatial Attention Text token t의 hidden vector H에 대한 일반적인 self-attention: DocLLM에서는 입력 {(x, b)}에 대해 bbox를 hidden vector S로 임베딩하고 text-to-text, text-to-spatial, spatial-to-text, spati..
LLaMA Beyond English: An Empirical Study on Language Capability Transfer 다른 언어로의 전이 학습에 대한 조사 [arXiv](2024/01/02 version v1) AbstractLanguage generation, following instruction 능력을 비영어권 언어로 효과적으로 이전하는 방법에 초점을 맞추어 1440 이상의 GPU 시간이 축적될 동안 어휘 확장, 추가 사전 훈련, 명령어 튜닝과 같은 요인이 전이에 미치는 영향을 분석했다. Background and OverviewInstruction-following LLM을 개발하기 위한 필수 단계 소개. Step 1: Pretraining to acquire language capability and knowledge Large corpus D가 주어지면 prefix sequence를 기반으로 다음 손실을 최소..
Improving Text Embeddings with Large Language Models 사전 훈련된 LLM을 fine-tuning 하여 text embedding model 얻기 [arXiv](Current version v1) Abstract LLM 합성 데이터와 1천 개 미만의 훈련 단계만으로 고품질의 텍스트 임베딩 모델을 얻을 수 있는 방법 소개 Method 텍스트 임베딩은 다양한 작업에 사용된다. Synthetic Data Generation GPT-4와 같은 고급 LLM에서 합성 데이터를 생성하기 위해 임베딩 작업을 여러 그룹으로 분류하고 각 그룹에 서로 다른 프롬프트 템플릿을 적용하는 간단한 분류법 제안. Asymmetric Tasks 비대칭 작업은 쿼리 검색에서 쿼리와 문서가 의미적으로는 연관이 있지만 동일한 표현을 사용하지 않는 경우를 말한다. 예를 들어, 비대칭 작업의 각 ..
LARP: Language-Agent Role Play for Open-World Games [arXiv](Current version v1) Abstract Open-world 환경에서 게임 경험을 향상할 수 있는 Language Agent for Role-Playing (LARP) 소개 Cognitive Architecture Long-Term Memory Working Memory Memory Processing Decision Making Long-Term Memory 인지 과학에서 장기 기억은 declarative memory, procedural memory로 나뉘며, declarative memory는 또다시 semantic memory와 episodic memory로 나뉜다. Semantic memory는 open-world(이하 game은 생략)의 관점에서 게임 규칙이나 세계관에..
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones [Github] [arXiv](Current version v1) Abstract 훈련에는 24G GPU, 추론에는 8G GPU 또는 CPU만 있으면 작동할 수 있는 효율적인 MLLM인 TinyGPT-V 소개 Method Model Architecture Visual encoder backbone EVA (자매품: EVA-02, EVA-CLIP) Linear projection layers 먼저 초기 projection layer로 BLIP2의 Q-Former를 채택. 또한 Q-Former의 출력과 LLM 간의 격차를 해소하기 위해 MiniGPT-4의 projection layer를 채택하고 linear layer 추가. Large lanuguage model backbone 2.7B의 작은 크기에 비해..
WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation Generator-Discriminator Framework를 통해 일반화 능력을 크게 향상할 수 있는 instruction dataset 제작 [arXiv](Current version v2) Abstract Instruction tuning 방법은 중복 데이터를 생성하는 경우가 많으며 데이터 품질을 충분히 제어할 수 없다. 4개의 범용 코드 관련 작업에 걸쳐 20k의 instruction instance로 구성된 데이터셋인 CodeOcean을 소개하고 새로운 fine-tuned Code LLM인 WaveCoder를 제안한다. CodeOcean: Four-task Code-related Instruction Data Tasks Setting 코드와 관련된 가장 보편적인 4가지 작업 선택: Code Su..
SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling 현재 Open LLM Leaderboard를 장악하고 있는 한국 AI 스타트업 업스테이지의 "SOLAR" ㄷㄷㄷ [HuggingFace] [arXiv](Current version v1) 현재(2023/12/28) leaderboard 1등인 Sakura-SOLAR-Instruct [Blog] [Github] Abstract Depth up-scaling(DUS) 기술을 소개하고 DUS를 사용하여 구축한 LLM인 SOLAR 10.7B 소개 SOLAR 10.7B Architectural Details 사전 훈련된 우수한 기본 모델에 DUS를 적용하여 scaled-up 모델을 얻는다. 다른 scale-up 방법인 MoE는 훈련 프레임워크의 복잡한 변경이 필요하지만 DUS는 기존의 훈련 및 추론 프레임워크를 ..