본문 바로가기

분류 전체보기

(539)
요제프 괴벨스 나는 왜 괴벨스가 궁금했는가? 지금은 명확히 기억이 나지 않는다.아마 우연히 나무위키에서 괴벨스에 대한 내용을 읽다가 관심이 생겼던 것 같다.그는 어떤 특별함을 가졌길래 "선전선동의 제왕"이 되었는가? 그에 대해서 알기 위해 구매한 이 책의 국내 정발 제목은 '괴벨스, 대중 선동의 심리학'이다. 이 책은 그가 주고받은 수백 통의 서신들, 그의 문학 작품과 수필들, 기타 문서들, 소송 관련 자료들, 무엇보다도 그의 일기를 바탕으로 쓰였다. 이 책은 제목과는 다르게 그의 선전 방법에 대한 분석이나 그러한 내용은 거의 없으며, 그냥 괴벨스 전기이다. (제목에서부터 선동을 하고 있다.)또한 1000p가 넘는 매우 두꺼운 책이다. 내 인생에서 읽은 책 중 가장 두껍다. 읽는데 시간이 꽤나 걸렸다.이 책의 내용은 ..
Diffusion On Syntax Trees For Program Synthesis (Tree Diffusion) AbstractSyntax tree에 순차적으로 추가된 noise를 반전시켜 역 그래픽 작업을 수행할 수 있는 Tree Diffusion 제안 [Project Page][Github][arXiv](2024/05/30 version v1)  사실 역 그래픽 작업을 수행할 일이 도대체 어디에 있겠는가?이 논문에서 Tree Diffusion이 할 수 있는 일 보다 최단거리의 tree를 찾아서 훈련에 사용하는 아이디어가 더 마음에 들었다.    Method그래픽 작업에서 복잡한 모양을 표현하기 위해 CFG(Context-Free Grammar)를 사용한다.CFG가 뭐임? 아래 그림과 그 아래 그림을 보면 무슨 느낌인지 알 수 있다. 우리의 목표는 x0을 보고 프로그램 zT에서 시작하여 z0를 도출하는 것이다. ..
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions Abstract신중하게 설계된 filtering, captioning 전략을 통해 생성된 고품질 데이터셋으로 비디오 이해 능력 향상 [Project Page][Github][arXiv](2024/06/06 version v1)   ShareGPT4Video Dataset 데이터 소스에서 2분을 초과하는 비디오를 필터링캡션 모델을 통해 비디오에 대한 짧은 캡션을 생성한 다음, 언어 모델을 통해 비디오의 캡션을 인코딩하고 CLS 토큰을 가져와 후보 비디오 풀에 넣음새로운 비디오에 대해 후보 풀의 CLS 토큰들과 비교하고 기존 비디오들과 의미적 유사도가 낮은 경우에만 후보 풀에 추가비디오에서 균일한 시간 간격으로 키프레임을 추출하고 CLIP image encoder의 CLS 토큰을 비교하여 중복성이 높은 인접..
GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning AbstractGNN의 그래프 검색 능력과 LLM의 언어 이해 능력을 결합하여 Knowledge Graph QA task에 이용  경고: 저도 GNN 잘 몰라요 [Github][arXiv](2024/05/30 version v1)   Problem Statement & Background Question Answering over KGs KGQA 설명Knowledge Graph 설명 나는 안 봤지만 대충 슥 봤는데 설명도 잘하시고 정성 들여 쓰신 것 같다.  Knowledge Graph는 entity v, v'와 관계 r에 대한 (v, r, v') triplet으로 저장되며 KGQA의 목표는 주어진 G와 q에 대해 정확하게 대답하는 G의 entity set {a}를 찾는 것이다. 이 논문과 이것저것 찾..
감정은 어떻게 만들어지는가? 내 블로그를 자주 찾아주시는 분이 추천한 책이다. 비문학 책 중에서는 사람 심리와 관련된 분야를 원래도 좋아하는 편이어서 시간 날 때 도서관에서 빌려 읽었다. 이 책은 감정에 대한 '고전적인 견해' 1. 감정에 대한 공통적인 신체 반응이 있다. 2. 어떤 감정을 느낄 때 항상 활성화되는 뉴런이 있다. 들을 전면 부정하며 시작한다. 전체적인 내용은 제목대로 정직하게 우리 뇌가 어떻게 스스로 감정을 구성하는지에 대해 설명한다. 하지만 결국 인간은 타인의 생각을 들여다보지 못하기 때문에 '증명' 보다는 '주장'에 가까운 책이기도 하다. 나는 이전에도 심리학 관련 책을 많이 읽고 관심이 많았기 때문에 감정은 스스로 만들어내는 것이라던가, 믿는 대로 보인다던가 하는 부분이 신기하지는 않았다. 내가 이 책에서 가장..
Transformers Can Do Arithmetic with the Right Embeddings (Abacus Embeddings) Abstract각 숫자의 자릿수를 인코딩하는 임베딩을 추가하여 산술 작업의 능력을 획기적으로 향상(Abacus는 주판을 의미한다.) [Github][arXiv](2024/05/27 version v1)  Hacker news에서 엄청난 토론이 열렸다.  Achieving Length Generalization for Addition 무작위 자릿수의 두 숫자를 더하는 작업에 대해 3가지 범주로 평가하며 In-Distribution: 훈련에 나타난 최대 자릿수 이내Out-of-Distribution: 훈련 최대 자릿수보다 크지만 100자리 이하Extreme OOD: 100자리 초과 Abacus Embeddings Help Align Digits  Randomized Positional Encodings에서 ..
End-to-end Algorithm Synthesis with Recurrent Networks: Logical Extrapolation Without Overthinking (DeepThinking Systems) Abstract반복 아키텍처, 반복 알고리즘을 통해 작은 문제를 해결할 수 있는 알고리즘을 반복하여 더 크고 복잡한 문제를 해결할 수 있도록 알고리즘 외삽을 수행한다. [Github][arXiv](2022/10/14 version v3)   Methods  2, 3번째 그림처럼 같은 블록이 여러 번 반복되는 아키텍처를 생각해 보자. 임베딩 함수는 p, 출력 헤드는 h, 블록의 반복을 다음과 같이 표기하고 블록의 출력은 이렇게 표기한다. 전체 네트워크를 간단하게 표기할 수 있다. Recall architectures 문제 해결을 위해 오랫동안 생각할 때, 우리는 종종 질문이나 작업을 다시 검토한다.이에 착안하여 이전 블록의 출력에 입력을 연결하여 제공. (차원을 맞추기 위한 컨볼루션 레이어 사용) Prom..
Randomized Positional Encodings Boost Length Generalization of Transformers Abstract훈련 시 훈련 데이터의 최대 길이보다 긴 위치 인코딩을 시뮬레이션하여 추론에 적용할 수 있는 Randomized Positional Encodings 제안 [Github][arXiv](2023/05/26 version v1)   Randomized Positional Encodings  훈련 중 최대 시퀀스 길이를 N이라 하자. 또한 N 보다 큰 임의의 L을 지정한다.예를 들어, N = 5, L = 20. 그리고 훈련 시에 배치마다 L에서 N개의 인덱스를 샘플링하고 → [1, 4, 10, 11, 17]이 위치 정보를 원래 위치 [1, 2, 3, 4, 5] 대신 사용한다. 이 방법을 사용하면 추론 시 N 초과 L 이하의 위치에 대해 적응할 수 있다.
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models AbstractLatent attention layer, contrastive instruction-tuning을 통해 최첨단 성능의 텍스트 임베딩 모델인 NV-Embed 개발 [Hugging Face model][arXiv](2024/05/27 version v1)   Method Bidirectional Attention 표현 학습을 향상시키기 위해 대조 학습 중에 causal attention mask를 제거한다. Latent Attention Layer일반적으로 토큰 시퀀스의 임베딩을 얻는 방법은 2가지가 있다. 시퀀스를 mean pooling 하거나 마지막 토큰의 임베딩을 얻는 것이다. 하지만 평균 풀링은 중요한 정보를 희석할 수 있고, 임베딩은 후반 토큰에 의존하는 recency bias..
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models Abstract근거 순회 (traversal of rationale)라는 개념을 통해 LLM에 암시적으로 근거를 제공하여 이해 능력을 향상시키는 Meteor (Mamba-based traversal of rationales) 제안 [Github][arXiv](2024/05/27 version v2)   IntroductionMeteor는 근거 순회 (traversal of rationale)라는 개념 하에서 긴 순차적 근거를 이해하고 답을 도출할 수 있다.효율적인 모델 크기 (7B)에도 불구하고 다양한 벤치마크에서 상당한 발전을 보여준다.   Meteor: Mamba-based traversal of rationaleCurating Rationale수집한 2.1M Vision-Instruction QA ..
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models Abstract LMM(Large Multimodal Model)의 visual encoder를 ConvNeXt로 대체하여 계산을 줄이고 성능 향상 [Github][arXiv](2024/05/24 version v1)   ConvLLaVA ConvNeXt as Standalone Visual Encoder구성은 LLaVA와 동일하지만 visual encoder를 ViT에서 ConvNeXt로 교체했다. ConvNeXt는 ViT에 비해 1/4 미만의 visual token을 생성하여 중복성을 줄이고 LLM의 계산 부담을 완화한다. 추가로 고해상도 이미지에서 전처리의 필요성과 토큰 수를 줄이기 위해 stage를 추가하여 5-stage의 ConvNeXt 사용. Updating ConvNeXt is Essenti..
Diffusion for World Modeling: Visual Details Matter in Atari (DIAMOND) AbstractDiffusion world model에서 훈련된 RL agent인 DIAMOND (DIffusion As a Model Of eNvironment Dreams) 소개  [Github][arXiv](2024/05/20 version v1)    Introduction실제 환경이 아닌 diffusion model이 생성한 world에서 RL agent를 훈련한다. DM은 이전 장면과 agent의 행동을 반영하여 다음 장면을 생성한다.    Method 알고리즘: 먼저 정책 πϕ를 통해 실제 환경에서 데이터 수집→ World model인 diffusion model 업데이트→ 보상 및 종료를 담당하는 모델 R (LSTM) 업데이트→ Actor-Critic model로써 πϕ, Vϕ 업데이트  ..