전체 글 (589) 썸네일형 리스트형 Soft Merging of Experts with Adaptive Routing (SMEAR) Abstract전문가의 가중 평균을 통해 구성된 단일 병합 전문가를 사용하여 보조 손실 없는 훈련을 가능하게 하는 SMEAR (Soft Merging of Experts with Adaptive Routing) 제안 [arXiv](2023/06/06 version v1) Soft Merging of Experts with Adaptive RoutingMixture-of-Experts에 gradient 기반 훈련을 적용하면 라우팅에 역전파를 적용할 수 없기 때문에 문제가 있다.이를 해결하기 위한 일반적인 접근법은 라우팅 출력에 보조 손실을 추가로 도입하는 것이다. SMEAR은 라우팅 결과에 따라 모든 전문가의 가중 평균을 계산하여 하나의 전문가로 병합하고 출력을 계산한다.특정 전문가를 선택하는 과정이.. Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models Abstract직접 평가 및 쌍별 순위 지정을 모두 수행할 수 있고 이전 버전보다 향상된 evaluator LM인 Prometheus 2 소개 [Github][arXiv](2024/05/02 version v1) IntroductionLM의 품질을 평가하기 위해 독점 LM에 의존하는 것은 문제를 야기한다.투명하고 제어 가능하고 인간과의 일치도가 가장 높으며 직접 평가와 쌍별 순위를 매길 수 있는 통합 평가 모델 개발. Methodology i) Direct Assessment 직접 평가는 지시와 그에 대한 응답을 스칼라 점수로 매핑하는 것이다. 인간 평가와의 상관관계를 최대화하기 위한 최근의 연구들을 반영하면, 모델에 참조 답안 a와 평가 기준 e를 제공하고 추가적으로 피드백 v를 출력하도록 한.. Prometheus: Inducing Fine-grained Evaluation Capability in Language Models AbstractEvaluator LM을 훈련하기 위해 설계된 feedback collection dataset과 평가에 특화된 모델인 Prometheus 제안 [arXiv](2024/03/09 version v2, 2023/10/12 v1) The Feedback Collection DatasetPrometheus의 입력: 지시, 지시에 대한 응답, 사용자가 제공한 평가 기준, 참조 답변출력: 점수, 점수에 대한 이론적 근거를 알려주는 피드백 Dataset Construction Process인간이 평가 기준 작성GPT-4를 통해 초기 평가 기준 세분화GPT-4를 통해 각 평가 기준과 관련된 새로운 지시 생성GPT-4를 통해 각 구성요소 생성Fine-Tuning an Evaluator LMFeedba.. StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation AbstractConsistent self-attention을 통해 일관된 이미지, motion predictor를 통해 부드러운 비디오 생성 [Project Page][Github][arXiv](2024/05/02 version v1) Method Training-free Consistent images generation Consistent Self-Attention (CSA)은 기존의 SA를 대체하고 원래의 가중치를 재사용하여 훈련 없이 사용할 수 있다.CSA의 방법은 간단하다. 배치 내의 다른 토큰을 self-attention에 참여시키는 것이다. 구체적으로, 배치 내의 다른 이미지에서 토큰을 샘플링하고 K, V에 추가하여 SA를 수행한다. Pi = Si + IiSemantic motion p.. Iterative Reasoning Preference Optimization AbstractCoT를 DPO에 사용하여 모델을 반복적으로 개선하는 Iterative RPO 제안 [arXiv](2024/04/30 version v1) Iterative Reasoning Preference Optimization CoT와 답변을 생성하고 순위를 매기고 DPO + NLL의 조합으로 반복적으로 개선한다. Experiments Better & Faster Large Language Models via Multi-token Prediction AbstractMulti-token prediction training을 하면 single-head에서도 성능이 향상된다? [arXiv](2024/04/30 version v1) Parallel decoding, speculative decoding에 대한 논문은 많지만 이 논문의 신기한 점은 훈련은 multi-head로 하면서 추론은 single-head로 한다는 점이다. 그러니까 추론 시에는 일반적인 LLM과 똑같은데 코딩 작업에서 성능이 향상되었다.아마 코딩 작업은 어느 정도 정답이 정해져 있기에 그런 듯? Method Shared trunk의 출력에서 각각 다른 head를 통해 미래 n개의 토큰을 동시에 예측한다. Memory-efficient implementation 각 head의 gra.. InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation AbstractMulti-modal embedding stack, masked cross-attention을 통해 multi-ID 생성 문제를 해결 [arXiv](2024/04/30 version v1) Proposed Method InstantFamily Multimodal Embedding Stack 위 그림 (a)에 나와있듯이 face encoder의 2D local feature, 1D global feature를 text condition에 연결하여 cross-attention 입력으로 사용한다. Masked Cross-Attention Masked cross-attention은 3-stage로 진행되며 UNet과 ControlNet 모두에 사용된다.뭐 설명할 필요 없을 듯. 각 얼굴 영역.. Octopus v4: Graph of language models AbstractFunction token을 통해 다른 모델을 호출하여 추론 [Nexa AI Blog][Hugging Face][Github][arXiv](2024/04/30 version v1) Methodology Language model for classification from Octopus v2 Octopus v2는 주어진 query에 대해 function, parameter를 생성한다. Language models as nodes in graph 그래프는 node, edge로 이루어져 있으며master node Nm이 주어진 작업에 대해 적절한 worker node Nw를 선택하여 query를 전달한다.Functional token and dataset collections Octopus.. 파친코 나무위키에 기재되어 있는 소설 파친코의 개요. 이것보다 더 명쾌하게 설명할 수가 없을 것 같아서 그냥 가져왔다.이 소설은 말 그대로 재일 교포들이 살아가는 이야기다. 4대에 이르는 타임라인이 매우 긴 만큼 느슨한 부분 없이 사건들이 빠르게 진행되며, 한 페이지만에 몇 년이 지나는 경우도 잦다.나는 오히려 그런 점이 마음에 들었고, 시간 가는 줄도 모르고 엄청 재밌게 읽었다.살면서 읽은 책 중 손에 꼽을 정도로 재밌게 읽은 책이다.(자랑이지만 어릴 때부터 남들보다 책을 꽤 많이 읽었다. 그리고 재밌다고 강조했지만 절대로 가벼운 책이 아니다.) 재일 교포들의 치열한 삶뿐만 아니라 가부장적인 사회 속에서 살아가는 여성들의 비애 또한 담고 있다. 조선에서 태어나고 자란 1~2대까지는 이러한 주제 의식이 혼재되어.. Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent AbstractOctopus v2 + vision : on-device function calling [Nexa AI Blog][arXiv](2024/04/18 version v2) [Octopus v2 논문 리뷰] Methodology Encoding visual information CLIP 기반 vision encoder를 사용한다. Functional token Octopus v2와 똑같이 functional token을 사용하여 기능을 호출한다. Multi-stage training 사전 훈련된 vision encoder, LLM의 정렬을 학습 → functional token 학습 Model evaluation 모델의 피라미터 수는 1B 미만이며 아래 결과들은 출력 parser가.. 돈키호테 - 1 어떤 굴욕을 당해도, 어떤 곤경에 처해도 그는 언제나 '슬픈 몰골의 기사 돈 키호테' 였다. Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models (PoLL) PoLL이 인간 판단과의 상관관계 (Kappa Score)가 가장 높다. Abstract Panel of LLM evaluators (PoLL)을 구성하여 LLM의 품질을 평가 [arXiv](2024/04/29 version v1) Introduction최근 GPT-4와 같은 LLM을 평가자로 사용하는 것이 일반화되고 있지만 단일 모델에는 고유한 편견이 있다. Methods Background: LLM as a Judge 판사 모델 J가 출력 모델 A의 출력 a를 평가하는 데 사용된다. Single-point Scoring score = J(a) Reference-based Scoring 판사 모델에 gold reference r이 제공된다.score = J(a, r) Pair-wise Sc.. 이전 1 ··· 8 9 10 11 12 13 14 ··· 50 다음