본문 바로가기

전체 글

(523)
Better & Faster Large Language Models via Multi-token Prediction AbstractMulti-token prediction training을 하면 single-head에서도 성능이 향상된다? [arXiv](2024/04/30 version v1) Parallel decoding, speculative decoding에 대한 논문은 많지만 이 논문의 신기한 점은 훈련은 multi-head로 하면서 추론은 single-head로 한다는 점이다. 그러니까 추론 시에는 일반적인 LLM과 똑같은데 코딩 작업에서 성능이 향상되었다.아마 코딩 작업은 어느 정도 정답이 정해져 있기에 그런 듯?   Method Shared trunk의 출력에서 각각 다른 head를 통해 미래 n개의 토큰을 동시에 예측한다.  Memory-efficient implementation 각 head의 gra..
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation AbstractMulti-modal embedding stack, masked cross-attention을 통해 multi-ID 생성 문제를 해결 [arXiv](2024/04/30 version v1)   Proposed Method InstantFamily Multimodal Embedding Stack 위 그림 (a)에 나와있듯이 face encoder의 2D local feature, 1D global feature를 text condition에 연결하여 cross-attention 입력으로 사용한다. Masked Cross-Attention Masked cross-attention은 3-stage로 진행되며 UNet과 ControlNet 모두에 사용된다.뭐 설명할 필요 없을 듯. 각 얼굴 영역..
Octopus v4: Graph of language models AbstractFunction token을 통해 다른 모델을 호출하여 추론 [Nexa AI Blog][Hugging Face][Github][arXiv](2024/04/30 version v1)   Methodology Language model for classification from Octopus v2 Octopus v2는 주어진 query에 대해 function, parameter를 생성한다. Language models as nodes in graph 그래프는 node, edge로 이루어져 있으며master node Nm이 주어진 작업에 대해 적절한 worker node Nw를 선택하여 query를 전달한다.Functional token and dataset collections Octopus..
파친코 나무위키에 기재되어 있는 소설 파친코의 개요. 이것보다 더 명쾌하게 설명할 수가 없을 것 같아서 그냥 가져왔다.이 소설은 말 그대로 재일 교포들이 살아가는 이야기다. 4대에 이르는 타임라인이 매우 긴 만큼 느슨한 부분 없이 사건들이 빠르게 진행되며, 한 페이지만에 몇 년이 지나는 경우도 잦다.나는 오히려 그런 점이 마음에 들었고, 시간 가는 줄도 모르고 엄청 재밌게 읽었다.살면서 읽은 책 중 손에 꼽을 정도로 재밌게 읽은 책이다.(자랑이지만 어릴 때부터 남들보다 책을 꽤 많이 읽었다. 그리고 재밌다고 강조했지만 절대로 가벼운 책이 아니다.) 재일 교포들의 치열한 삶뿐만 아니라 가부장적인 사회 속에서 살아가는 여성들의 비애 또한 담고 있다. 조선에서 태어나고 자란 1~2대까지는 이러한 주제 의식이 혼재되어..
Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent AbstractOctopus v2 + vision : on-device function calling [Nexa AI Blog][arXiv](2024/04/18 version v2) [Octopus v2 논문 리뷰]  Methodology   Encoding visual information CLIP 기반 vision encoder를 사용한다.  Functional token Octopus v2와 똑같이 functional token을 사용하여 기능을 호출한다.  Multi-stage training 사전 훈련된 vision encoder, LLM의 정렬을 학습 → functional token 학습    Model evaluation 모델의 피라미터 수는 1B 미만이며 아래 결과들은 출력 parser가..
돈키호테 - 1 어떤 굴욕을 당해도, 어떤 곤경에 처해도 그는 언제나 '슬픈 몰골의 기사 돈 키호테' 였다.
Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models (PoLL) PoLL이 인간 판단과의 상관관계 (Kappa Score)가 가장 높다. Abstract Panel of LLM evaluators (PoLL)을 구성하여 LLM의 품질을 평가 [arXiv](2024/04/29 version v1)  Introduction최근 GPT-4와 같은 LLM을 평가자로 사용하는 것이 일반화되고 있지만 단일 모델에는 고유한 편견이 있다.   Methods Background: LLM as a Judge 판사 모델 J가 출력 모델 A의 출력 a를 평가하는 데 사용된다.  Single-point Scoring score = J(a)  Reference-based Scoring 판사 모델에 gold reference r이 제공된다.score = J(a, r)  Pair-wise Sc..
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning AbstractImage pretrained MLLM을 비디오에 간단하고 효과적으로 적용하기 위한 방법 조사 [Project Page][Github][arXiv](2024/04/25 version v1)   Method & Analysis Failure Cases Analysis for Applying Image MLLMs 사전 훈련된 인코더를 통해 비디오의 각 프레임을 인코딩하고 LLM에 입력하는 n-frame 시나리오에서 문제 분석.  Vulnerability to prompts OOD(out-of-distribution) prompt를 사용하면 답변의 품질이 급격하게 저하된다.반면 PLLaVA는 일관된 길이의 답변을 출력한다.  Dominant tokens 히스토그램은 모델 전반에 걸친 visio..
FILM: Make Your LLM Fully Utilize the Context AbstractLong-context의 중간에 필요한 정보를 배치하고 훈련하는 In2 training을 통해 long-context에서의 성능 향상 [Github][arXiv](2024/04/26 version v2)   Introduction연구진은 LLM이 긴 context의 중간에서 길을 잃는 원인이 훈련 데이터의 의도하지 않은 편향에서 비롯된다는 가설을 세웠다. 시스템 메시지는 context의 시작 부분에 표시되며 다음 토큰 예측에 대한 손실은 인근 토큰의 영향을 받을 확률이 크기 때문에 결과적으로 중요한 정보가 항상 context의 시작과 끝에 위치한다는 암시적 위치 편향을 도입할 수 있다.    Information-Intensive Training Training Data Construct..
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites (InternVL-1.5) Abstract동적 고해상도 처리, 고품질 이중언어 데이터셋으로 훈련 [Github][arXiv](2024/04/25 version v1)   InternVL 1.5   Strong Vision Encoder 기존 MLLM의 ViT는 고정된 저해상도(224×224), 인터넷에서 크롤링한 이미지로 훈련된다.  InternViT-6B-448px-V1.2뒤에서 4번째 레이어의 feature가 multi-modal task에 가장 적합하다고 한다.따라서 InternViT-6B의 마지막 3개 레이어 제거, 해상도 향상(448), Nous Hermes 2 - Yi-34B와 통합.  InternViT-6B-448px-V1.5 해상도를 동적으로 입력받을 수 있도록 확장하고 규모, 품질, 다양성이 향상된 데이터에 대해 ..
Layer Skip: Enabling Early Exit Inference and Self-Speculative Decoding Abstract레이어를 조기 종료하고 병렬로 검증하여 보조 모델 없이 빠르게 디코딩 [arXiv](2024/04/25 version v1)   IntroductionSpeculative Decoding은 보조 모델이 필요하다. 본문에서는 추가적인 모델이나 레이어가 필요하지 않은 Self Speculative Decoding을 제안한다.    Motivation Exiting Earlier in LLMs Llama 7B 각 레이어의 출력을 LM head에 투영하여 해당 레이어에서 예측된 토큰을 확인했다. 관찰 결과, 올바른 토큰을 예측하는 데 모든 레이어가 필요한 것은 아니었다. 평균적으로 23.5개의 레이어가 필요했다. Layer dropout을 사용하여 모델이 후기 레이어보다 초기 레이어에 더 의존하..
CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data AbstractImage-text pretraining을 분류 작업으로 재구성하여 성능을 유지하면서도 빠르게 훈련할 수 있는 CatLIP 제안 [Github][arXiv](2024/04/24 version v1)   CatLIP: Contrastive to Categorical Learning 대조 학습을 통한 image-text pretraining을 분류 작업으로 casting 한다.Global pair와의 유사성을 계산해야 하는 대조 학습보다 훨씬 빠르다.  Caption-derived classification labels아래와 같은 과정을 통해 웹에서 image-text 데이터를 수집하여 기존의 CC3M dataset을 증강한다.이 과정에서 WordNet이 사용되므로 class 대신 synset..