본문 바로가기

전체 글

(528)
High Fidelity Neural Audio Compression (EnCodec) 오디오 코덱 신경망. SoundStream 개선 버전. Github arXiv Abstract 신경망을 활용한 최첨단 실시간, 고충실도 오디오 코덱인 EnCodec 소개. Introduction 압축 모델의 주요 문제는 두 가지이다. 첫째, 모델은 일반적이고 광범위한 신호를 나타낼 수 있어야 한다. -크고 다양한 훈련 세트, 판별기 네트워크를 사용하여 해결 둘째, 컴퓨팅 시간과 크기를 효율적으로 줄여야 한다. -CPU 코어에서 실행 가능하도록 모델 제한, 잔차 벡터 양자화(SoundStream) 채택. Model Encoder & Decoder Architecture 기본적으로 아키텍처는 시퀀스 모델링을 위해 최종 Conv1D 직전에 추가한 LSTM을 제외하면 SoundStream과 동일하고 고충실도의 ..
SoundStream: An End-to-End Neural Audio Codec 오디오 코덱 신경망 Github arXiv Abstract 신경망을 통한 오디오 코덱인 SoundStream 제안. 벡터 양자화와 적대적 훈련을 통하여 고품질 오디오 콘텐츠 생성 가능. Introduction 적대적 및 재구성 손실로 end-to-end 훈련되는 신경망 오디오 코덱인 SoundStream 제안 Residual vector quantizer, quantizer dropout 기술 제안 Model Encoder architecture 나도 음향? 데이터를 잘 몰라서 직접 데이터 크기를 비교해 봤는데, 일단 인코더 입력 시 크기는 (1, 64000). (배치 크기 제외) 인코더의 각 블록을 통과한 후의 크기 1D 컨볼루션으로 연산된다. 디코더의 출력은 당연히 그 반대 또한 입력 데이터에 추가로..
知彼知己百戰不殆 나는 외부 자극에 의한 감정을 덜 느끼는 편이다. 그런데 '감정'의 반대는 '이성'이 아닌 것인가? 나는 지금까지 무의식적인 욕구와의 싸움에서 처참한 승률을 기록해 왔다. 감정적인 사람은 아닌데 이성적인 사람도 아니었던 것이다. 문득 일론 머스크가 떠올랐다(사실 고민을 할 때면 머스크는 어떻게 할까?부터 떠올리기에 문득은 아니지만). 머스크는 어릴 적에 '어둠'은 '가시광선이 부족한 상태'라는 것을 안 직후부터 어둠이 전혀 무섭지 않았다고 했다. 다른 아이들은 귀신을 무서워할 때 말이다. 그런데 머스크는 시나몬 토스트 크런치를 좋아하고, 스스로도 문제가 있다고 느낄 정도로 커피와 다이어트 콜라를 자주 마신다. 또한 운동은 최대한 안 하고 싶다고 했으며, 그런 것을 하면서 오래 살 바엔 하고 싶은 거 다 ..
Language 논문 분류 Large Language Model (LLM)SOLAR 10.7B : 매우 간단하고 효율적인 depth up-scaling 방법으로 모델 업스케일링DocLLM : LLM이 layout을 고려하여 시각적 문서를 추론할 수 있도록 함TinyLlama : LLaMA2 기반에 1T 개의 토큰으로 pretraining 된 1.1B 모델 Mistral 7B : LLaMA2 기반 모델 (Sliding window attention, Rolling buffer cache)Mixtral 8x7B : Mistral 7B + Mixture of expertsEurus : Multi-turn interaction 궤적을 수집하여 SFT, Preference Learning에 사용Phi-3 : 오직 훈련 데이터만 변경함으로써..
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding 비디오를 이해하는 언어 모델 Github arXiv Abstract Video Q-former, Audio Q-former를 통해 비디오의 시청각 콘텐츠를 이해하는 multi-modal framework인 Video-LLaMA 제안. Related Works BLIP & BLIP-2 MiniGPT-4 ImageBind Introduction BLIP-2의 아이디어를 채택해 Video Q-former, Audio Q-former를 도입하고 multi-branch cross-model 고안. Audio-text 데이터가 존재하지 않기 때문에 대응을 위해 ImageBind를 인코더로 활용. Method Architecture Vision-Language Branch 이미지 인코더, 위치 임베딩 레이어, Q-F..
ImageBind: One Embedding Space To Bind Them All Image-paired data로 모든 양식 통합하기 Github arXiv Abstract 6가지 다른 양식에 걸쳐 joint 임베딩을 학습하는 접근 방식인 ImageBind 제안. 훈련에 모든 pair data가 필요하지 않으며 image-paired data만 있으면 충분하다. Introduction 해변의 이미지는 파도 소리, 모래의 질감, 바람을 떠올리게 하거나 시에 영감을 줄 수도 있다. 이미지의 이 binding 속성은 이미지와 관련된 모든 감각 경험과 정렬하여 시각적 기능을 학습할 수 있는 많은 소스를 제공한다. 본 논문에서는 여러 유형의 image-paired 데이터를 활용하여 단일 공유 표현 공간을 학습하는 ImageBind를 제시한다. 이미지의 binding 속성을 활용하여 각 양식의..
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold (DragGAN) 드래그를 통해 이미지 제어 Github arXiv Abstract 드래그를 통해 이미지를 제어하는 DragGAN 제안 Introduction GAN의 feature space가 모션 감독과 정확한 포인트 추적을 가능하게 할 만큼 충분히 구별적이라는 핵심 통찰을 기반으로 함. 추가 네트워크에 의존하기 않기 때문에 몇 초 밖에 걸리지 않는 효율적인 조작 가능. 학습된 이미지 매니폴드에서 수행되기 때문에 사자 입 속의 이와 같은 콘텐츠 환각 또한 가능. Method StyleGAN2 아키텍처를 기반으로 handle point가 target point에 도달하도록 구동되는 대화형 이미지 조작을 목표로 함. Interactive Point-based Manipulation 사용자 정의 handle point pi..
Segment Anything in High Quality (HQ-SAM) SAM에서 세부적인 마스크 품질 개선 Github arXiv Abstract SAM(Segment Anything Model)의 마스크 품질을 개선한 HQ-SAM 제안 Introduction SAM의 주요한 문제 중 하나는 얇은 선 같은 물체를 잘 감지하지 못하는 것 HQ-SAM은 SAM의 가중치를 건드리지 않고 0.5% 미만의 피라미터를 추가하여 고품질 segmentation에 적응 SAM의 디코더에 입력되는 학습 가능한 HQ 출력 토큰 설계 HQ 토큰은 디코더 feature만이 아닌 세부 정보를 얻기 위해 정제된 feature에서 작동 고품질 segmentation 훈련을 위한 HQSeg-44K 데이터셋 제작. Method Preliminaries: SAM SAM Ours: HQ-SAM High-Qu..
Personalize Segment Anything Model with One Shot (PerSAM) SAM(Segment Anything Model) 개인화&자동화 arXiv Github Abstract SAM(Segment Anything Model)을 위한 개인화 접근 방식인 PerSAM 제안. 또한 학습 가능한 가중치를 도입하여 더욱 효율적인 변형인 PerSAM-F 제안. 제안한 방법으로 Stable Diffusion 또한 개인화 가능. Introduction SAM은 클릭과 같은 사용자 입력이 있어야 한다. PerSAM은 내 앨범에서 강아지 사진을 찾는 작업과 같이 자동으로 특정 개체를 탐지하고 분할할 수 있을까? 에서 시작한다. 원샷 데이터만을 사용하여 SAM을 효율적으로 사용자 정의 먼저 SAM을 통해 참조 이미지의 대상 개체의 임베딩을 인코딩한 뒤 테스트 이미지에서 개체와 모든 픽셀 간의 ..
상위 0.01% 요즘 블로그 활동이 뜸했죠. 아무도 관심 없겠지만. 과연 그동안 무엇을 했을까나...  롤체 챌린저를 찍었습니다... 흠... (바뀐 챌린저 휘장 진짜 맛없네...) 예전부터 그마는 간간히 찍었는데 챌 한 번만 찍어보자 해서 시도했다가 실패하고를 수없이 반복한 끝에... 내가 지금까지 공부에 쏟은 시간만큼이나 롤에 쏟은 시간이 많은데... 그래도 정점은 찍어 봐야 맘 편하게 접을 수 있지 않겠습니까... 물론 롤체에서 챌 찍기가 롤에서 챌 찍는 것만큼 대단한 일은 아니지만 뭐 그래도 귀중한 경험이었다고 생각합디다...(중요!!! 그냥 챌린저도 아니라 랭킹 30등까지 감 ㅇㅅㅇ. 원래 챌린저는 300등부터) 분야를 막론하고 일류가 되는 방법은 모두 비슷하다고 생각하기 때문에... 챌을 찍으면서 느낀 것은 ..
Inpaint Anything: Segment Anything Meets Image Inpainting Segment Anything Model(SAM)을 최신 모델들과 함께 다양한 작업에 적용 마스크 없는 인페인팅 Github arXiv Abstract Segment Anything Model(SAM)을 이용하여 마스크 없는 inpainting을 최초로 시도하고 Inpaint Anything(IA) 이라는 'clicking and filling'의 새로운 패러다임 제안. IA의 핵심 아이디어는 서로 다른 강점의 모델들을 결합해 사용자 친화적인 파이프라인을 구축하는 것. Motivation and Observation 강력한 segmentatin model(SAM), AIGC model(AI generated content - Stable Diffusion), inpainting model(LaMa)을 결..
A Method for Animating Children's Drawings of the Human Figure 아이들의 그림을 움직이게 하기 Project Page Github arXiv Abstract 아이들의 그림을 애니메이션화 하는 누구나 사용할 수 있을 만큼 간단하고 직관적인 시스템 제안. 또한 Amateur Drawings Dataset 소개. Introduction 이 시스템은 Figure detection Segmentation masking Pose estimation/rigging Animation 4단계로 구성된다. 기존 사진 모델과 펜 드로잉의 차이로 인해 모델을 fine tuning 해야 하고 훈련 세트 크기와 성공률 사이의 관계를 탐구하기 위한 일련의 실험과 지각 연구 수행. +Amateur Drawings Dataset Method 경계 상자 예측 Segmentation mask를 통해 ..