전체 글 (581) 썸네일형 리스트형 Phi-3 Technical Report [MS Blog][arXiv](2024/04/23 version v2) Introduction오직 훈련 데이터만 변경함으로써 작은 3.8B 모델로 타 대형 모델에 필적하는 성능을 달성했다. Technical SpecificationsPhi-3-mini (3.8B)Decoder architecture기본 context 길이: 4KLongRoPE를 이용한 context 확장 버전: 128KLlama2와 동일한 어휘 크기 32064의 tokenizer를 사용, 블록 구조도 비슷해 llama2의 목적의 모든 패키지를 적용할 수 있다.3072 hidden dimention , 32 heads, 32 layers3.3T 토큰, bfloat16으로 훈련 4-bits 양자화로 1.8GB의 메모리만 차지하며 iPho.. AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation AbstractHTML의 계층적 구조와 LLM을 활용하여 확장성이 뛰어난 crawler인 AutoCrawler 제안 [Github][arXiv](2024/04/19 version v1) AutoCrawler Modeling 원하는 정보를 추출하기 위해 웹페이지에 대한 행동 시퀀스 A를 생성한다. XPath: 문서를 탐색하고 변환할 수 있는 쿼리 언어. 마지막을 제외한 모든 행동은 웹페이지를 정리하는 데 사용되며 마지막 행동은 정보를 추출하는 데 사용된다. Progressive GenerationAutoCrawler는 Reflexion과 다르게 반복마다 DOM tree를 정리하여 웹페이지 크기를 줄인다.4: 현재 HTML code h와 작업 지시 I를 바탕으로 LLM이 예상 value와 XPath.. Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models AbstractRegion encoding을 기반으로 region-level task에 능숙한 MLLM인 Groma 소개 [Project Page][Github][arXiv](2024/04/19 version v1) Method Model Architecture Image EncoderDINOv2: CLIP보다 고해상도에서 fine-grained feature를 포착하는 데 더 적합하다.LLM에 입력되는 토큰 수를 줄이기 위해 인접한 4개의 패치를 하나로 연결한다. Region Proposer Deformable DETR의 head를 이진 분류기로 대체하여 region proposer로 사용. Region Encoder GLaMM의 region encode.. TextSquare: Scaling up Text-Centric Visual Instruction Tuning Abstract대규모 고품질 VQA 데이터셋을 통해 MLLM의 성능, 특히 텍스트 인식을 크게 향상. [arXiv](2024/04/19 version v1) Square-10M: A Massive and High-quality Text-Centric VQA Instruction Tuning Dataset Data Generation: Self-Questioning, Answering, and Reasoning Stage 1: Self-Questioning Gemini Pro를 통해 질문 생성.추가로 요즘 MLLM은 텍스트 이해 능력이 약하기 때문에 OCR 모델을 통해 추출된 텍스트를 프롬프트 앞에 추가. Stage 2: Answering 답변 생성. St.. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing (AlphaLLM) Abstract Monte Carlo Tree Search (MCTS)를 통합하여 LLM self-improvement [arXiv](2024/04/18 version v1) AlphaLLM ηMCTS Option-level MCTS 'Option'을 정의하여 Monte Carlo Tree Search(MCTS)의 단위로 설정하였다. Option은 다음과 같이 정의된다. o = ⟨I, π, β⟩ Option-level MCTS의 작업 흐름: 선택: Upper Confidence Bound 알고리즘에 따라 노드를 선택 확장: 종료 조건이 만족될 때까지 정책 π를 사용하여 토큰을 샘플링 시뮬레이션 역전파 Importance Weighted Expansion 각 노드의 중요도를 측정하고 중요도에 비례하여 자식.. Dynamic Typography: Bringing Text to Life via Video Diffusion Prior Abstract 사용자 프롬프트에 따라 텍스트에 움직임을 불어넣는 end-to-end 최적화 프레임워크 [Project Page] [Github] [arXiv](2024/04/18 version v2) Preliminary Vector Representation and Fonts FreeType 글꼴 라이브러리를 통해 문자의 윤곽선을 추출하고 특정 해상도에 얽매이지 않는 벡터 표현인 베지에 곡선으로 변환한다. Score Distillation Sampling [SDS 논문 리뷰] 사전 훈련된 text-to-video 모델의 지식을 추출하기 위해 사용한다. SDS는 벡터에 적용할 수 없으므로 미분 가능한 래스터라이저로 DiffVG를 사용한다. DiffVG는 미분 가능한 방식으로 벡터 표현을 픽셀 표현으로 .. TransformerFAM: Feedback attention is working memory Abstract Global information을 제공하는 feedback attention memory를 통해 무한 시퀀스를 처리할 수 있다. 요즘 비슷한 논문 엄청 많이 나옴;; [arXiv](2024/04/14 version v1) TransformerFAM Block Sliding Window Attention (BSWA) BSWA는 sliding window attention에서 이전 memory segment의 토큰까지 추가한 것이다. Attention을 블록으로 나누고 각 블록을 독립적으로 계산하면 최대 메모리는 늘어나지 않는다. 무한히 긴 시퀀스를 생성할 수 있지만 수용 필드 외부의 토큰을 볼 수 없다는 단점이 있다. Feedback Attention Memory 전역 정보를 제공하는 F.. Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length Abstract 기존의 Mega를 개선하여 무제한 context 길이로 효율적인 시퀀스 모델링을 가능하게 하는 Megalodon 제안 [Github] [arXiv](2024/04/16 version v2) Background: Moving Average Equipped Gated Attention (MEGA) 이전 연구인 Mega를 간략하게 검토한다. 입, 출력 시퀀스 표기: X = {x1, x2, . . . , xn} and Y = {y1, y2, . . . , yn} Mega와 Megalodon은 attention을 사용하고 있지만 timestep에 걸쳐 지속적으로 변경되는 어떤 state를 가지고 있다는 점에서 state space model과도 유사하다. Multi-dimensional Dampe.. Learn Your Reference Model for Real Good Alignment (TR-DPO) Abstract 학습 중에 참조 정책을 업데이트하는 TR-DPO (Trust Region DPO) 제안 [arXiv](2024/04/15 version v1) Method Vanilla DPO는 고정된 참조 정책을 사용하지만 본문에서는 참조 정책을 업데이트할 것을 제안한다. Soft update의 정도는 α의 값에 따라 결정되며 hard update는 𝜏 training step 후에 정책을 직접 대체한다. Experiments 실험에는 Pythia 모델을 사용한다. 제안하는 방법론은 엄청나게 간단하고, 이후 다방면의 분석을 내놓고 있지만 결론적으로 𝛼 = 0.5 ~ 0.7, 𝜏 = 256 ~ 512의 값이 제일 적절하다고 말하고 있다. Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models Abstract 3가지 주요 디자인을 통해 Ferret을 대폭 업그레이드한 Ferret-v2 공개 Any resolution grounding and referring Multi-granularity visual encoding A three-stage training paradigm [arXiv](2024/04/11 version v1) Methods A Revisit of Ferret [Ferret 논문 리뷰] Ferret은 자유 형식 마스크가 있는 이미지를 '이름 + [좌표] + '의 형식으로 LLM에 입력하며, 토큰은 visual sampler를 통해 생성된 임베딩이다. 추가로 CLIP image encoder로 추출한 feature를 제공한다. 훈련에는 image-caption alignment.. JetMoE: Reaching Llama2 Performance with 0.1M Dollars Abstract SMoE를 채택하여 10만 달러 미만의 비용으로 효율적이고 뛰어난 성능을 보여주는 JetMoE-8B 모델 소개 [Website] [Github] [arXiv](2024/04/11 version v1) Introduction Mixture-of-Experts를 attention, MLP layer 모두에 적용한 ModuleFormer에서 영감을 받아 Sparsely-gated Mixture-of-Experts (SMoE)를 채택하였다. Model Architecture Mixture of Experts 라우터의 출력에서 top-K logits을 선택하고 최종 출력은 전문가 출력의 가중합으로 계산된다. Attention Expert Attention layer에는 4개의 projection .. ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback Abstract Cycle consistency를 명시적으로 최적화하여 이미지 제어를 향상시키는 ControlNet++ 제안 [Project Page] [Github] [arXiv](2024/04/11 version v1) [ControlNet 논문 리뷰] Introduction CycleGAN에서 영감을 받아 조건으로 이미지를 생성한 후 다시 조건으로 회귀할 수 있는 cycle consistency를 이용할 것을 제안. Method Reward Controllability with Consistency Feedback Reward consistency loss 정의: L = 픽셀 공간 손실 측정 함수, G = stable diffusion, D = 탐지 등의 조건 변환 모델 이미지 생성 기능이 손상 되.. 이전 1 ··· 9 10 11 12 13 14 15 ··· 49 다음