본문 바로가기

분류 전체보기

(519)
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling AbstractMamba와 Sliding Window를 계층적으로 결합한 hybrid architecture인 Samba를 제안하고 실험 [Github][arXiv](2024/06/11 version v1)  Methodology MambaSliding Window Attention    Experiments and Results Language Modeling on Textbook Quality Data  Perplexity 처리 속도  Long-Context Understanding
Scalable MatMul-free Language Modeling AbstractLLM에서 값비싼 MatMul 작업을 완전히 제거메모리 사용량을 최대 60%까지 줄임 [Github][arXiv](2024/06/18 version v5)   Method MatMul-free Dense Layers with Ternary Weights Dense layer를3항 가중치 {-1, 0, +1}를 가진 BitLinear 모듈로 변환하여 MatMul 연산을 누적 덧셈 연산으로 변환할 수 있다.  Hardware-efficient Fused BitLinear Layer BitNet은 BitLinear 입력 전 RMSNorm을 요구하며 HBM과 SRAM으로 구성된 현대 GPU의 구조를 고려할 때 기존 구현은 많은 I/O 작업을 도입하여 하드웨어 효율적이지 못하다. 하드웨어를 고려한..
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B (MCTSr) AbstractLLM과 MCTS (Monte Carlo Tree Search)를 혁신적으로 통합한 MCTSr (MCT Self-Refine) 제안특히 수학적 추론 능력이 크게 향상됨 [arXiv](2024/06/13 version v2)   Preliminary MCTSUCT (Upper Confidence Boundary of Tree) Self-refine(Project page 설명, 동영상) 용어 정리:P: 다루고 있는 문제 인스턴스A: P에 대한 잠재적 답변을 나타내는 노드들의 집합 M: 각 노드에서 사용 가능한 동작들의 집합R: 노드들의 자체 보상을 샘플링하는 함수 (자체 보상이란 LLM에게 스스로 자기 답변을 평가하도록 하는 것을 말함)Ra: R로 a의 모든 자체 보상 샘플링 결과를 저장하는..
'컨설팅'은 왜 가치 있는가? + 잡설 사람들은 자신이 직접 알아보고 하는 것보다는 "믿을 만한" 사람에게 맡기려는 경향이 있다. 그것이 편리하고 시간을 아낄 수 있기 때문이다.(자신의 주특기가 아닌 경우에) 그 무엇은 그 사람이 "당장 시급하게 필요로 하는 것"이 아니어도 된다.  가령, 내가 오랫동안 많은 AI 관련 논문을 봐왔고 내 블로그에 핵심만 이해하기 쉽고 간결하게 정리해 둔 논문만 해도 400건이 넘으며 '실제로 본 논문은 훨씬 더 많고', 그 과정에서 내가 깨달은 것은 "실제로 논문을 잘 읽는 방법을 아는 것은 매우 중요하다는 것이며 내가 그것을 알려 줄 수 있다"라고 광고하고 다님으로써, '논문 잘 읽는 방법을 찾는 것에 전혀 관심이 없었지만 논문을 읽어야 할 상황에 처한 사람들'에게 돈을 받고 그것을 알려줄 수 있게 된다. ..
목표와 신념이 없다면, 단지 살아있을 뿐이다. 괴벨스 전기에 이어서, 오바마 자서전을 읽는 중이다.추후 독후감에도 적겠지만, 지금 기록해 놓아야 할 것 같다.일론 머스크와 괴벨스, 그리고 오바마의 공통점은 목표와 비전, 또는 신념과 같이 '행동에 대한 동기'가 있었다는 점이다.확률이 낮더라도, 그 "일말의 가능성"에 "전력"으로 부딪혔을 때, 비로소 기적은 일어난다.아직 초반밖에 읽지 않았지만, 인상 깊었던 구절이 있다.나 자신보다 큰 무언가를 좇기로 마음먹고서야 비로소 삶의 목적과 내게 맞는 공동체를 찾을 수 있었다.그들의 신념, 목표, 어쩌면 "광신적 믿음"이 그들로 하여금 일말에 가능성에 전력으로 부딪히도록 할 수 있었다.그들의 이야기는 어쨌거나 "승자의 이야기"이기 때문에 그 아래 파묻힌 수많은 패자들이 있을지도 모른다. 매번 무모한 도전만 ..
요제프 괴벨스 나는 왜 괴벨스가 궁금했는가? 지금은 명확히 기억이 나지 않는다. 아마 우연히 나무위키에서 괴벨스에 대한 내용을 읽다가 관심이 생겼던 것 같다. 그는 어떤 특별함을 가졌길래 "선전선동의 제왕"이 되었는가? 그에 대해서 알기 위해 구매한 이 책의 국내 정발 제목은 '괴벨스, 대중 선동의 심리학'이다. 이 책은 그가 주고받은 수백 통의 서신들, 그의 문학 작품과 수필들, 기타 문서들, 소송 관련 자료들, 무엇보다도 그의 일기를 바탕으로 쓰였다. 이 책은 제목과는 다르게 그의 선전 방법에 대한 분석이나 그러한 내용은 거의 없으며, 그냥 괴벨스 전기이다. (제목에서부터 선동을 하고 있다.) 또한 1000p가 넘는 매우 두꺼운 책이다. 내 인생에서 읽은 책 중 가장 두껍다. 읽는데 시간이 꽤나 걸렸다. 이 책의 ..
Diffusion On Syntax Trees For Program Synthesis (Tree Diffusion) AbstractSyntax tree에 순차적으로 추가된 noise를 반전시켜 역 그래픽 작업을 수행할 수 있는 Tree Diffusion 제안 [Project Page][Github][arXiv](2024/05/30 version v1)  사실 역 그래픽 작업을 수행할 일이 도대체 어디에 있겠는가?이 논문에서 Tree Diffusion이 할 수 있는 일 보다 최단거리의 tree를 찾아서 훈련에 사용하는 아이디어가 더 마음에 들었다.    Method그래픽 작업에서 복잡한 모양을 표현하기 위해 CFG(Context-Free Grammar)를 사용한다.CFG가 뭐임? 아래 그림과 그 아래 그림을 보면 무슨 느낌인지 알 수 있다. 우리의 목표는 x0을 보고 프로그램 zT에서 시작하여 z0를 도출하는 것이다. ..
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions Abstract신중하게 설계된 filtering, captioning 전략을 통해 생성된 고품질 데이터셋으로 비디오 이해 능력 향상 [Project Page][Github][arXiv](2024/06/06 version v1)   ShareGPT4Video Dataset 데이터 소스에서 2분을 초과하는 비디오를 필터링캡션 모델을 통해 비디오에 대한 짧은 캡션을 생성한 다음, 언어 모델을 통해 비디오의 캡션을 인코딩하고 CLS 토큰을 가져와 후보 비디오 풀에 넣음새로운 비디오에 대해 후보 풀의 CLS 토큰들과 비교하고 기존 비디오들과 의미적 유사도가 낮은 경우에만 후보 풀에 추가비디오에서 균일한 시간 간격으로 키프레임을 추출하고 CLIP image encoder의 CLS 토큰을 비교하여 중복성이 높은 인접..
GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning AbstractGNN의 그래프 검색 능력과 LLM의 언어 이해 능력을 결합하여 Knowledge Graph QA task에 이용  경고: 저도 GNN 잘 몰라요 [Github][arXiv](2024/05/30 version v1)   Problem Statement & Background Question Answering over KGs KGQA 설명Knowledge Graph 설명 나는 안 봤지만 대충 슥 봤는데 설명도 잘하시고 정성 들여 쓰신 것 같다.  Knowledge Graph는 entity v, v'와 관계 r에 대한 (v, r, v') triplet으로 저장되며 KGQA의 목표는 주어진 G와 q에 대해 정확하게 대답하는 G의 entity set {a}를 찾는 것이다. 이 논문과 이것저것 찾..
일주일이 사라져버린 남자 블로그 업데이트를 안 한지 약 10일 정도 되었네요... 일주일동안 요즘 유행하는 게임인 '포케로그'를 했습니다... 포케로그는 포켓몬 + 로그라이크를 합친 팬게임인데요. 무료이고 다운로드도 필요없는 웹 게임이라 매우 가볍게 즐길 수 있는 게 최대 장점이고 정말정말 잘 만들었습니다. 마지막으로 포켓몬 관련 게임을 한 지가 10년이 넘었는데 인터넷 방송인이 하는 걸 보다가 너무 재밌어보여서 시작했습니다. 타입 상성도 잘 몰라서 상성표 보면서 했는데 너무 재밌어서 일주일동안 유튜브, 커뮤니티, 인터넷방송, 뉴스 등등 이런 것들 전부 다 끊고 남는 시간에는 이것만 미친듯이 했습니다... 생활패턴도 창나서 다시 되돌려야 할 것 같네염... 예전에 롤토체스 챌린저 달성하고 한국 랭킹 30등 정도 갔을 때 그때는 ..
감정은 어떻게 만들어지는가? 내 블로그를 자주 찾아주시는 분이 추천한 책이다. 비문학 책 중에서는 사람 심리와 관련된 분야를 원래도 좋아하는 편이어서 시간 날 때 도서관에서 빌려 읽었다. 이 책은 감정에 대한 '고전적인 견해' 1. 감정에 대한 공통적인 신체 반응이 있다. 2. 어떤 감정을 느낄 때 항상 활성화되는 뉴런이 있다. 들을 전면 부정하며 시작한다. 전체적인 내용은 제목대로 정직하게 우리 뇌가 어떻게 스스로 감정을 구성하는지에 대해 설명한다. 하지만 결국 인간은 타인의 생각을 들여다보지 못하기 때문에 '증명' 보다는 '주장'에 가까운 책이기도 하다. 나는 이전에도 심리학 관련 책을 많이 읽고 관심이 많았기 때문에 감정은 스스로 만들어내는 것이라던가, 믿는 대로 보인다던가 하는 부분이 신기하지는 않았다. 내가 이 책에서 가장..
수면 부족을 인지하는 방법 매일 6시에 퇴근하면 지하철역으로 뛰어간다.바로 앞에 지하철역이 있지만, 그 역에서 타면 환승을 해야 하고 서서 가야 한다. 반면에 뛰어서 10분 이내로 갈 수 있는 다른 역으로 가면 환승 없이 앉아서 갈 수 있고 소소하게 운동도 된다. 달리기를 하면 스트레스가 풀린다는 말도 있지 않은가.비가 오지 않는 한 거르지 않기 때문에, 매일매일 힘듦의 정도로 내 몸 상태를 알 수 있다. 유일한 요인은 아니겠지만, 몸 상태가 수면의 정도에 따라 많이 차이 남을 느낀다.푹 잔 날은 역까지 쭉 뛰어갈 수도 있는데, 오늘은 절반 정도 가서 헉헉거리며 멈춰 섰다. 어제 3시간 밖에 못 잔 탓일 것이다. 그 전날에는 많이 잔 터라 정신적으로는 딱히 엄청 피곤한 느낌도 아니었는데 뛰려니까 몸이 무거웠다. 역시 몸은 솔직한 ..