본문 바로가기

전체 글

(526)
약속의 땅 (버락 오바마 회고록) 이 책은 사실 구매한 지 거의 3년이 지났다. 친구를 기다리며 서점을 둘러보다가 베스트셀러 코너에 있던 이 책을 발견했다. 엄청 두꺼운 책을 한 번 읽어보고 싶은 마음, 미국 최초의 흑인 대통령의 삶이 궁금했던 마음 (그 순간에는), 짧고 굵은 제목과 표지의 오바마 사진 등 여러 요인에 이끌려서 사버렸지만 너무 두꺼워서 읽을 엄두가 안 나기도 했고 흥미가 떨어지기도 했고 그래서 오랫동안 내 책장에만 꽂혀 있었다.  하지만 비슷한 두께를 자랑하는 괴벨스 전기를 읽고 난 후, 발동 걸린 김에 다 읽자는 마음으로 집어 들었다.  책 페이지 수는 내용만 해도 890p이다. 괴벨스 전기는 1000p가 넘었지만 부록 부분이 길어 실제 페이지는 이 책 보다 적었다. 이 책은 부록이 없는데, 오바마 본인이 부록이나 주..
Refusal in Language Models Is Mediated by a Single Direction (Daredevil-8B) Abstract유해한 명령을 거부하는 단일 방향을 찾아 제거 [논문 설명][Colab + 코드 분석][HuggingFace Model Weight][arXiv](2024/06/17 version v1)   Methodology 연구진의 가설은 모델의 각각의 거부 반응에 공통적인 refusal feature가 있고, 이를 제거하면 거부 기능이 중단된다는 것이다. Extracting a refusal direction 유해 프롬프트에 대한 평균 활성화 μ, 무해 프롬프트에 대한 평균 활성화 ν를 구하고 차이를 구한다. 벡터 r은 토큰 위치 i와 레이어 l에 대해 I × L개 생성되며r을 제거했을 때 명령을 거부하지 않는지무해 프롬프트에 대해 r을 추가하면 명령을 거부하는지r이 모델 동작에 얼마나 영향을 미치..
Depth Anything V2 AbstractDepth Anything V1의 업그레이드 버전 [Project Page][Github][arXiv](2024/06/13 version v1)   Revisiting the Labeled Data Design of Depth Anything V1 Real labeled depth map의 단점:여러 요인으로 인해 label이 부정확하다.세부사항이 간과되는 경우가 많다. 그에 비해 합성 이미지는 detail과 label이 모두 정확하다.    Challenges in Using Synthetic Data 그럼에도 불구하고 여전히 MDE(Monocular depth estimation)에서 real depth map이 활용되고 있는 이유:합성 이미지와 실제 이미지 사이의 차이: 합성 이미지는..
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs (Goldfish Loss) Abstract훈련 목표의 간단한 수정을 통해 기억 능력을 감소시켜 정보 누출 위험을 피하는 Goldfish Loss 제안 [Github][arXiv](2024/06/14 version v1)   Goldfish Loss: Learning Without Memorizing 일반적인 causal language modeling: Goldfish loss는 goldfish mask G ∈ {0, 1}를 통해 G = 0일 때 토큰의 손실을 무시하는 것이다. 이는 모델이 테스트 시 훈련 샘플을 '재현'하려는 것을 막음으로써 정보 누출을 완화할 수 있다.마스킹 방법으로는 k번째 토큰을 무시하거나 1/k 확률로 무시하는 방법들이 있다. Robust Handling of Duplicate Passages with H..
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling AbstractMamba와 Sliding Window를 계층적으로 결합한 hybrid architecture인 Samba를 제안하고 실험 [Github][arXiv](2024/06/11 version v1)  Methodology MambaSliding Window Attention    Experiments and Results Language Modeling on Textbook Quality Data  Perplexity 처리 속도  Long-Context Understanding
Scalable MatMul-free Language Modeling AbstractLLM에서 값비싼 MatMul 작업을 완전히 제거메모리 사용량을 최대 60%까지 줄임 [Github][arXiv](2024/06/18 version v5)   Method MatMul-free Dense Layers with Ternary Weights Dense layer를3항 가중치 {-1, 0, +1}를 가진 BitLinear 모듈로 변환하여 MatMul 연산을 누적 덧셈 연산으로 변환할 수 있다.  Hardware-efficient Fused BitLinear Layer BitNet은 BitLinear 입력 전 RMSNorm을 요구하며 HBM과 SRAM으로 구성된 현대 GPU의 구조를 고려할 때 기존 구현은 많은 I/O 작업을 도입하여 하드웨어 효율적이지 못하다. 하드웨어를 고려한..
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B (MCTSr) AbstractLLM과 MCTS (Monte Carlo Tree Search)를 혁신적으로 통합한 MCTSr (MCT Self-Refine) 제안특히 수학적 추론 능력이 크게 향상됨 [arXiv](2024/06/13 version v2)   Preliminary MCTSUCT (Upper Confidence Boundary of Tree) Self-refine(Project page 설명, 동영상) 용어 정리:P: 다루고 있는 문제 인스턴스A: P에 대한 잠재적 답변을 나타내는 노드들의 집합 M: 각 노드에서 사용 가능한 동작들의 집합R: 노드들의 자체 보상을 샘플링하는 함수 (자체 보상이란 LLM에게 스스로 자기 답변을 평가하도록 하는 것을 말함)Ra: R로 a의 모든 자체 보상 샘플링 결과를 저장하는..
목표와 신념이 없다면, 단지 살아있을 뿐이다. 괴벨스 전기에 이어서, 오바마 자서전을 읽는 중이다.추후 독후감에도 적겠지만, 지금 기록해 놓아야 할 것 같다.일론 머스크와 괴벨스, 그리고 오바마의 공통점은 목표와 비전, 또는 신념과 같이 '행동에 대한 동기'가 있었다는 점이다.확률이 낮더라도, 그 "일말의 가능성"에 "전력"으로 부딪혔을 때, 비로소 기적은 일어난다.아직 초반밖에 읽지 않았지만, 인상 깊었던 구절이 있다.나 자신보다 큰 무언가를 좇기로 마음먹고서야 비로소 삶의 목적과 내게 맞는 공동체를 찾을 수 있었다.그들의 신념, 목표, 어쩌면 "광신적 믿음"이 그들로 하여금 일말에 가능성에 전력으로 부딪히도록 할 수 있었다.그들의 이야기는 어쨌거나 "승자의 이야기"이기 때문에 그 아래 파묻힌 수많은 패자들이 있을지도 모른다. 매번 무모한 도전만 ..
요제프 괴벨스 나는 왜 괴벨스가 궁금했는가? 지금은 명확히 기억이 나지 않는다.아마 우연히 나무위키에서 괴벨스에 대한 내용을 읽다가 관심이 생겼던 것 같다.그는 어떤 특별함을 가졌길래 "선전선동의 제왕"이 되었는가? 그에 대해서 알기 위해 구매한 이 책의 국내 정발 제목은 '괴벨스, 대중 선동의 심리학'이다. 이 책은 그가 주고받은 수백 통의 서신들, 그의 문학 작품과 수필들, 기타 문서들, 소송 관련 자료들, 무엇보다도 그의 일기를 바탕으로 쓰였다. 이 책은 제목과는 다르게 그의 선전 방법에 대한 분석이나 그러한 내용은 거의 없으며, 그냥 괴벨스 전기이다. (제목에서부터 선동을 하고 있다.)또한 1000p가 넘는 매우 두꺼운 책이다. 내 인생에서 읽은 책 중 가장 두껍다. 읽는데 시간이 꽤나 걸렸다.이 책의 내용은 ..
Diffusion On Syntax Trees For Program Synthesis (Tree Diffusion) AbstractSyntax tree에 순차적으로 추가된 noise를 반전시켜 역 그래픽 작업을 수행할 수 있는 Tree Diffusion 제안 [Project Page][Github][arXiv](2024/05/30 version v1)  사실 역 그래픽 작업을 수행할 일이 도대체 어디에 있겠는가?이 논문에서 Tree Diffusion이 할 수 있는 일 보다 최단거리의 tree를 찾아서 훈련에 사용하는 아이디어가 더 마음에 들었다.    Method그래픽 작업에서 복잡한 모양을 표현하기 위해 CFG(Context-Free Grammar)를 사용한다.CFG가 뭐임? 아래 그림과 그 아래 그림을 보면 무슨 느낌인지 알 수 있다. 우리의 목표는 x0을 보고 프로그램 zT에서 시작하여 z0를 도출하는 것이다. ..
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions Abstract신중하게 설계된 filtering, captioning 전략을 통해 생성된 고품질 데이터셋으로 비디오 이해 능력 향상 [Project Page][Github][arXiv](2024/06/06 version v1)   ShareGPT4Video Dataset 데이터 소스에서 2분을 초과하는 비디오를 필터링캡션 모델을 통해 비디오에 대한 짧은 캡션을 생성한 다음, 언어 모델을 통해 비디오의 캡션을 인코딩하고 CLS 토큰을 가져와 후보 비디오 풀에 넣음새로운 비디오에 대해 후보 풀의 CLS 토큰들과 비교하고 기존 비디오들과 의미적 유사도가 낮은 경우에만 후보 풀에 추가비디오에서 균일한 시간 간격으로 키프레임을 추출하고 CLIP image encoder의 CLS 토큰을 비교하여 중복성이 높은 인접..
GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning AbstractGNN의 그래프 검색 능력과 LLM의 언어 이해 능력을 결합하여 Knowledge Graph QA task에 이용  경고: 저도 GNN 잘 몰라요 [Github][arXiv](2024/05/30 version v1)   Problem Statement & Background Question Answering over KGs KGQA 설명Knowledge Graph 설명 나는 안 봤지만 대충 슥 봤는데 설명도 잘하시고 정성 들여 쓰신 것 같다.  Knowledge Graph는 entity v, v'와 관계 r에 대한 (v, r, v') triplet으로 저장되며 KGQA의 목표는 주어진 G와 q에 대해 정확하게 대답하는 G의 entity set {a}를 찾는 것이다. 이 논문과 이것저것 찾..