본문 바로가기

전체 글

(528)
DocLLM: A layout-aware generative language model for multimodal document understanding [arXiv](2023/12/31 version v1) Abstract LLM이 layout을 고려하여 시각적 문서를 추론하도록 경량으로 확장한 DocLLM 소개 DocLLM Framework Model Architecture Baseline: LLaMA2 OCR을 사용하여 얻은 text token과 공간 정보를 별개의 양식으로 취급하여 별개의 벡터를 사용한다. Disentangled Spatial Attention Text token t의 hidden vector H에 대한 일반적인 self-attention: DocLLM에서는 입력 {(x, b)}에 대해 bbox를 hidden vector S로 임베딩하고 text-to-text, text-to-spatial, spatial-to-text, spati..
LLaMA Beyond English: An Empirical Study on Language Capability Transfer 다른 언어로의 전이 학습에 대한 조사 [arXiv](2024/01/02 version v1) AbstractLanguage generation, following instruction 능력을 비영어권 언어로 효과적으로 이전하는 방법에 초점을 맞추어 1440 이상의 GPU 시간이 축적될 동안 어휘 확장, 추가 사전 훈련, 명령어 튜닝과 같은 요인이 전이에 미치는 영향을 분석했다. Background and OverviewInstruction-following LLM을 개발하기 위한 필수 단계 소개. Step 1: Pretraining to acquire language capability and knowledge Large corpus D가 주어지면 prefix sequence를 기반으로 다음 손실을 최소..
TrailBlazer: Trajectory Control for Diffusion-Based Video Generation [Project Page] [Github] [arXiv](2023/12/31 version v1) Abstract 간단한 bounding box를 통해 비디오에서 피사체를 안내할 수 있는 TrailBlazer 제안 Method 깜빡임 없이 고품질 비디오를 생성하는 것으로 유명한(?) VideoFusion의 fine-tuned version인 ZeroScope cerspense를 추가적인 훈련 없이 그대로 사용한다. VideoFusion은 모든 frame에서 공유하는 base noise와 residual noise를 따로 예측한다. Pipeline Spatial Cross Attention Guidance Temporal Cross-Frame Attention Guidance Scene compositin..
Directed Diffusion: Direct Control of Object Placement through Attention Guidance [Project Page] [Github] [arXiv](2023/09/26 version v3) Abstract Cross-attention map에 activation을 생성하여 위치를 제어할 수 있는 Directed Diffusion 제안 Method 아래 두 줄은 각각 처음과 마지막 denoising process의 cross-attention map을 보여준다. Process의 초기에 위치가 확립되며 cross-attention은 명확한 공간적 해석을 갖는다. Pipeline LDM(Stable Diffusion) 기반. 영역 정보 R = {B,I}는 bbox B와 해당 bbox에 대한 prompt index I로 구성됨. e.g. I = {2} = "cat" Cross-Attention Map..
VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM LLM, Img model, Vid model을 활용하여 일관성 있는 multi-scene video 생성 [Project Page] [arXiv](2024/01/02 version v1) Abstract LLM을 활용하여 content 일관성이 있는 multi-scene video를 생성할 수 있는 VideoDrafter 제안 VideoDrafter 1. Multi-Scene Video Script Generation 2. Entity Reference Image Generation 3. Video Scene Generation VideoDrafter-Img VideoDrafter-Vid Multi-Scene Video Script Generation LLM은 배포 유연성과 추론 효율성을 고려하여 Ch..
LooseControl: Lifting ControlNet for Generalized Depth Conditioning [Project Page] [Github] [arXiv](Current version v1) Abstract 정확한 depth map을 생성하는 것은 어려운 일이다. 일반화된 깊이 조절을 가능하게 하는 LooseControl 소개 Problem Setup - LooseControl ControlNet의 깊이 제어는 다음과 같이 depth map D가 주어지면 생성 이미지 I를 깊이 추정기 f에 입력했을 때 D와 같도록 한다. 본문에서는 여기에 condition function ϕ를 추가한다. Scene boundary control 조건 D가 깊이의 상한만 지정하도록 함 3D box control 생성된 객체 O가 경계 상자 B를 준수하는지 확인하는 조건 함수를 설계한다. Realizing LooseCo..
Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models (Semantic-DDM) [Project Page] [arXiv](Current version v1) Abstract U-Net의 bottleneck인 h-space라고 불리는 잠재 공간에서 의미 있는 방향을 찾기 위한 새로운 방법 제안 The semantic latent space of DDMs 확산 모델은 먼저 다음과 같이 noise n을 이용해 noised image를 얻고 역확산 과정을 통해 denoising. 분산은 다음과 같고 ηt가 0이면 DDIM, 1이면 DDPM이다. 이전 연구에 따라, middle block의 출력 활성화인 h-space를 연구한다. 이전 연구와 달리 P 뿐만 아니라 D에도 ∆ht를 주입하며, 이는 한 번의 forward pass만 필요하다는 이점이 있다. 이전 연구에서는 P의 h-space만 ..
Improving Text Embeddings with Large Language Models 사전 훈련된 LLM을 fine-tuning 하여 text embedding model 얻기 [arXiv](Current version v1) Abstract LLM 합성 데이터와 1천 개 미만의 훈련 단계만으로 고품질의 텍스트 임베딩 모델을 얻을 수 있는 방법 소개 Method 텍스트 임베딩은 다양한 작업에 사용된다. Synthetic Data Generation GPT-4와 같은 고급 LLM에서 합성 데이터를 생성하기 위해 임베딩 작업을 여러 그룹으로 분류하고 각 그룹에 서로 다른 프롬프트 템플릿을 적용하는 간단한 분류법 제안. Asymmetric Tasks 비대칭 작업은 쿼리 검색에서 쿼리와 문서가 의미적으로는 연관이 있지만 동일한 표현을 사용하지 않는 경우를 말한다. 예를 들어, 비대칭 작업의 각 ..
LARP: Language-Agent Role Play for Open-World Games [arXiv](Current version v1) Abstract Open-world 환경에서 게임 경험을 향상할 수 있는 Language Agent for Role-Playing (LARP) 소개 Cognitive Architecture Long-Term Memory Working Memory Memory Processing Decision Making Long-Term Memory 인지 과학에서 장기 기억은 declarative memory, procedural memory로 나뉘며, declarative memory는 또다시 semantic memory와 episodic memory로 나뉜다. Semantic memory는 open-world(이하 game은 생략)의 관점에서 게임 규칙이나 세계관에..
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones [Github] [arXiv](Current version v1) Abstract 훈련에는 24G GPU, 추론에는 8G GPU 또는 CPU만 있으면 작동할 수 있는 효율적인 MLLM인 TinyGPT-V 소개 Method Model Architecture Visual encoder backbone EVA (자매품: EVA-02, EVA-CLIP) Linear projection layers 먼저 초기 projection layer로 BLIP2의 Q-Former를 채택. 또한 Q-Former의 출력과 LLM 간의 격차를 해소하기 위해 MiniGPT-4의 projection layer를 채택하고 linear layer 추가. Large lanuguage model backbone 2.7B의 작은 크기에 비해..
Transformer Tutorial 서당개도 이해할 수 있는 transformer 설명을 발견했다. 영어로 된 글이지만 둘 다 크롬 사이트 번역으로 읽어도 하나도 안 어색하고 부드럽게 읽어지니까 부담 ㄴㄴ. The illustrated transformer The Illustrated Transformer Discussions: Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments) Translations: Arabic, Chinese (Simplified) 1, Chinese (Simplified) 2, French 1, French 2, Italian, Japanese, Korean, Persian, Russian, Spanish 1, S..
SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation [Project Page] [arXiv](Current version v1) Abstract 다양한 query modality에 대응하여 참조 이미지에서 피사체를 선택적으로 캡처할 수 있도록 설계된 SSR-Encoder 소개 The Proposed Method 1. Selective Subject Representation Encoder Token-to-patch aligner Detail-preserving subject encoder 2. Subject Conditioned Generation 3. Model Training and Inference Selective Subject Representation Encoder Token-to-patch aligner CLIP은 전경보다 배경을 우선시하는 ..