본문 바로가기

분류 전체보기

(540)
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation AbstractConsistent self-attention을 통해 일관된 이미지, motion predictor를 통해 부드러운 비디오 생성 [Project Page][Github][arXiv](2024/05/02 version v1)   Method Training-free Consistent images generation Consistent Self-Attention (CSA)은 기존의 SA를 대체하고 원래의 가중치를 재사용하여 훈련 없이 사용할 수 있다.CSA의 방법은 간단하다. 배치 내의 다른 토큰을 self-attention에 참여시키는 것이다. 구체적으로, 배치 내의 다른 이미지에서 토큰을 샘플링하고 K, V에 추가하여 SA를 수행한다. Pi = Si + IiSemantic motion p..
Iterative Reasoning Preference Optimization AbstractCoT를 DPO에 사용하여 모델을 반복적으로 개선하는 Iterative RPO 제안 [arXiv](2024/04/30 version v1)   Iterative Reasoning Preference Optimization  CoT와 답변을 생성하고 순위를 매기고 DPO + NLL의 조합으로 반복적으로 개선한다.    Experiments
Better & Faster Large Language Models via Multi-token Prediction AbstractMulti-token prediction training을 하면 single-head에서도 성능이 향상된다? [arXiv](2024/04/30 version v1) Parallel decoding, speculative decoding에 대한 논문은 많지만 이 논문의 신기한 점은 훈련은 multi-head로 하면서 추론은 single-head로 한다는 점이다. 그러니까 추론 시에는 일반적인 LLM과 똑같은데 코딩 작업에서 성능이 향상되었다.아마 코딩 작업은 어느 정도 정답이 정해져 있기에 그런 듯?   Method Shared trunk의 출력에서 각각 다른 head를 통해 미래 n개의 토큰을 동시에 예측한다.  Memory-efficient implementation 각 head의 gra..
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation AbstractMulti-modal embedding stack, masked cross-attention을 통해 multi-ID 생성 문제를 해결 [arXiv](2024/04/30 version v1)   Proposed Method InstantFamily Multimodal Embedding Stack 위 그림 (a)에 나와있듯이 face encoder의 2D local feature, 1D global feature를 text condition에 연결하여 cross-attention 입력으로 사용한다. Masked Cross-Attention Masked cross-attention은 3-stage로 진행되며 UNet과 ControlNet 모두에 사용된다.뭐 설명할 필요 없을 듯. 각 얼굴 영역..
Octopus v4: Graph of language models AbstractFunction token을 통해 다른 모델을 호출하여 추론 [Nexa AI Blog][Hugging Face][Github][arXiv](2024/04/30 version v1)   Methodology Language model for classification from Octopus v2 Octopus v2는 주어진 query에 대해 function, parameter를 생성한다. Language models as nodes in graph 그래프는 node, edge로 이루어져 있으며master node Nm이 주어진 작업에 대해 적절한 worker node Nw를 선택하여 query를 전달한다.Functional token and dataset collections Octopus..
파친코 나무위키에 기재되어 있는 소설 파친코의 개요. 이것보다 더 명쾌하게 설명할 수가 없을 것 같아서 그냥 가져왔다.이 소설은 말 그대로 재일 교포들이 살아가는 이야기다. 4대에 이르는 타임라인이 매우 긴 만큼 느슨한 부분 없이 사건들이 빠르게 진행되며, 한 페이지만에 몇 년이 지나는 경우도 잦다.나는 오히려 그런 점이 마음에 들었고, 시간 가는 줄도 모르고 엄청 재밌게 읽었다.살면서 읽은 책 중 손에 꼽을 정도로 재밌게 읽은 책이다.(자랑이지만 어릴 때부터 남들보다 책을 꽤 많이 읽었다. 그리고 재밌다고 강조했지만 절대로 가벼운 책이 아니다.) 재일 교포들의 치열한 삶뿐만 아니라 가부장적인 사회 속에서 살아가는 여성들의 비애 또한 담고 있다. 조선에서 태어나고 자란 1~2대까지는 이러한 주제 의식이 혼재되어..
Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent AbstractOctopus v2 + vision : on-device function calling [Nexa AI Blog][arXiv](2024/04/18 version v2) [Octopus v2 논문 리뷰]  Methodology   Encoding visual information CLIP 기반 vision encoder를 사용한다.  Functional token Octopus v2와 똑같이 functional token을 사용하여 기능을 호출한다.  Multi-stage training 사전 훈련된 vision encoder, LLM의 정렬을 학습 → functional token 학습    Model evaluation 모델의 피라미터 수는 1B 미만이며 아래 결과들은 출력 parser가..
돈키호테 - 1 어떤 굴욕을 당해도, 어떤 곤경에 처해도 그는 언제나 '슬픈 몰골의 기사 돈 키호테' 였다.
Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models (PoLL) PoLL이 인간 판단과의 상관관계 (Kappa Score)가 가장 높다. Abstract Panel of LLM evaluators (PoLL)을 구성하여 LLM의 품질을 평가 [arXiv](2024/04/29 version v1)  Introduction최근 GPT-4와 같은 LLM을 평가자로 사용하는 것이 일반화되고 있지만 단일 모델에는 고유한 편견이 있다.   Methods Background: LLM as a Judge 판사 모델 J가 출력 모델 A의 출력 a를 평가하는 데 사용된다.  Single-point Scoring score = J(a)  Reference-based Scoring 판사 모델에 gold reference r이 제공된다.score = J(a, r)  Pair-wise Sc..
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning AbstractImage pretrained MLLM을 비디오에 간단하고 효과적으로 적용하기 위한 방법 조사 [Project Page][Github][arXiv](2024/04/25 version v1)   Method & Analysis Failure Cases Analysis for Applying Image MLLMs 사전 훈련된 인코더를 통해 비디오의 각 프레임을 인코딩하고 LLM에 입력하는 n-frame 시나리오에서 문제 분석.  Vulnerability to prompts OOD(out-of-distribution) prompt를 사용하면 답변의 품질이 급격하게 저하된다.반면 PLLaVA는 일관된 길이의 답변을 출력한다.  Dominant tokens 히스토그램은 모델 전반에 걸친 visio..
FILM: Make Your LLM Fully Utilize the Context AbstractLong-context의 중간에 필요한 정보를 배치하고 훈련하는 In2 training을 통해 long-context에서의 성능 향상 [Github][arXiv](2024/04/26 version v2)   Introduction연구진은 LLM이 긴 context의 중간에서 길을 잃는 원인이 훈련 데이터의 의도하지 않은 편향에서 비롯된다는 가설을 세웠다. 시스템 메시지는 context의 시작 부분에 표시되며 다음 토큰 예측에 대한 손실은 인근 토큰의 영향을 받을 확률이 크기 때문에 결과적으로 중요한 정보가 항상 context의 시작과 끝에 위치한다는 암시적 위치 편향을 도입할 수 있다.    Information-Intensive Training Training Data Construct..
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites (InternVL-1.5) Abstract동적 고해상도 처리, 고품질 이중언어 데이터셋으로 훈련 [Github][arXiv](2024/04/25 version v1)   InternVL 1.5   Strong Vision Encoder 기존 MLLM의 ViT는 고정된 저해상도(224×224), 인터넷에서 크롤링한 이미지로 훈련된다.  InternViT-6B-448px-V1.2뒤에서 4번째 레이어의 feature가 multi-modal task에 가장 적합하다고 한다.따라서 InternViT-6B의 마지막 3개 레이어 제거, 해상도 향상(448), Nous Hermes 2 - Yi-34B와 통합.  InternViT-6B-448px-V1.5 해상도를 동적으로 입력받을 수 있도록 확장하고 규모, 품질, 다양성이 향상된 데이터에 대해 ..