본문 바로가기

전체 글

(528)
Ostin X로 블로그명 변경. 처음 닉네임을 Ostin으로 지은 것에는 고려사항이 3가지 있었는데, 1. O로 시작할 것내 성씨가 오 씨이기 때문이다.영문표기로는 oh인데 사람들은 상징성에 생각보다 훨씬 더 크게 감화되는 경향이 있기 때문에 O가 훨씬 더 상징성 있고 강하게 기억에 남을 것 같아서 실제로 나중에 미국에 가서 살면 성을 O로 지을 것이다. 2. 스스로에게라도 뭔가 의미가 있을 것내가 가장 좋아하는 소설 오만과 편견의 작가인 제인 오스틴에서 따왔다. 제인 오스틴의 철자는 austen인데 앞글자를 O로 바꾸고 영어식 표기로 바꿔서 Ostin이 되었다. 오만과 편견은 굉장히 두꺼운 책인데 저녁 9시에 읽기 시작해서 해 뜰 때까지 다 읽었다. 근데 책이 너무 재밌어서는 아니고, 그때 하루에 책 1권씩 읽기 프로젝트를 하고 있었..
Consistency Models OpenAI에서 공개한 자기 일관성을 통해 학습하는 모델 One-step으로 꽤 괜찮을 품질의 이미지를 생성할 수 있는 것이 인상적. Github arXiv Abstract 확산 모델은 많은 진전을 이루었지만 느린 샘플링 속도와 반복 생성 프로세스에 의존한다. 이러한 한계를 극복하기 위해 Consistency Model(일관성 모델) 제안. 일관성 모델은 one-step 생성을 지원하면서도 품질을 위해 few-step 생성 또한 가능. 사전 훈련된 확산 모델을 증류하는 방법 또는 독립 실행형 생성 모델로 학습할 수 있다. Introduction 확산 모델은 GAN처럼 학습이 불안정하지 않고 자동회귀 모델, VAE, Normalizing Flow와 같이 아키텍처에 제약을 부과하지도 않는다. 단점은 많은 반..
도파민 디톡스 & 멀티태스킹 도파민 디톡스. 최근(?) 자기계발 분야에서 꽤 핫한 주제이다. 말하자면 게임, SNS, 포르노 등 쉽게 많은 도파민을 얻을 수 있는 환경에 많이 노출될수록 도파민을 많이 얻을 수는 없지만 실제로 인생에 도움이 되는 일(일, 공부 등)에 집중하기 점점 더 어려워지는데, 그래서 저런 일에 잘 집중하기 위해 욕구를 절제해야 한다는 것이다. 위에 예시로 든 행동들 뿐만 아니라 맛있는 음식, 여행, 애인과의 시간 등 도파민을 얻을 수 있는 모든 행동들에 적용할 수 있다. 도파민 레벨(내가 만든 용어임 ㅎ)이 더 낮을수록 더 자기통제력과 집중력을 올릴 수 있다. (like 스님) 사실 도파민 디톡스는 꽤 오래된 주제이고 나도 예전부터 알고 있었고 실천하기 위해 계속 노력해왔다. 내가 이 글을 쓰는 이유는 다른 새..
InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning 예제마다 일일이 최적화하지 않고 모델 개인화 arXiv Abstract 매번 일일이 fine tuning 할 필요 없이 즉각적인 T2I 모델의 개인화를 가능하게 하는 InstantBooth 제안 Introduction T2I(Text-to-Image) 모델의 개인화는 두 가지로 분류 가능 입력 이미지를 텍스트 공간으로 반전 e.g. DreamBooth, Textual-Inversion 단점: 각 예제에 대해 fine tuning 필요, 수정된 모델 가중치를 저장해야 함 텍스트 가이드를 통해 I2I 매핑 학습 e.g. InstructPix2Pix, ControlNet 단점: 학습 쌍 데이터 필요 Fine tuning 없는 T2I 모델의 개인화가 목표. 최적화 대신 인코더를 학습하여 일반화 세부 정보를 위해..
One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale (UniDiffuser) 각 multi-modal 데이터를 공동 훈련하여 modality 확장성이 뛰어난 모델 Github arXiv Abstract 하나의 모델에서 multi-modal 데이터셋과 관련된 모든 분포를 맞추는 통합 확산 프레임워크 UniDiffuser 제안. Unified view에서 영감을 얻은 UniDiffuser는 원래 확산 모델에 대한 최소한의 수정으로 모든 분포를 동시에 학습한다. Introduction Multi-modal 생성 작업은 확률적 모델링의 관점에서 해당 분포를 맞추는 것으로 볼 수 있다. (e.g. text-to-image 생성은 조건부 분포 p(ImageㅣText)를 학습하는 것) 본 논문에서는 추가 학습 또는 오버헤드 없이 하나의 모델에서 모든 관련 분포를 명시적으로 맞추는 확산 기반 ..
Structure and Content-Guided Video Synthesis with Diffusion Models (Gen-1, 2) Structure와 content를 조건으로 유연한 비디오 편집 Project Page Abstract 이미지 또는 텍스트 설명을 기반으로 비디오를 편집하는 structure and content-guided video diffusion model 제안. Introduction 본 논문의 기여 미리 학습된 이미지 모델에 시간 계층을 도입하고 이미지와 비디오를 공동 학습 함으로써 비디오로 확장 예제 이미지나 텍스트로 비디오를 수정하는 모델 시간, content 및 structure 일관성에 대한 완전한 제어 가능 작은 이미지 세트에서 fine tuning하여 더 세부적인 사용자 정의 가능 Method 'Structure'는 피사체의 모양, 위치, 시간적 변화 등 기하학적, 역학적 특성으로 정의. 'Cont..
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators 추가 학습이나 최적화 과정 없이 T2I 모델로 비디오 생성 Project page Abstract Zero-shot text-to-video 생성을 소개하고 기존의 T2I 합성 방법을 이용한 저비용 접근 방식 제안. 비디오 데이터에 대한 추가 학습 없이도 기존 T2V와 비슷한 성능을 보여줌. Instruct-Pix2Pix와 같은 다른 편집 작업에도 적용할 수 있음. Introduction 본 논문에서는 최적화나 미세 조정 없이 T2V를 가능하게 하는 zero-shot “training-free” text-to-video를 연구한다. 시간적 일관성을 위한 수정 사항 Global scene과 background의 일관성을 위해 모션 정보로 생성된 프레임의 잠재 코드를 풍부하게 함 Foreground 개체의 ..
Reviving Iterative Training with Mask Guidance for Interactive Segmentation 클릭 기반 interative segmentation, ITIS의 개선 버전 Github arXiv Abstract Segmentation mask를 사용하는 클릭 기반 대화형 segmentation을 위한 간단한 feed-forward 모델 제안. 완전히 새로운 개체를 분할할 수 있을 뿐만 아니라 외부 마스크로 시작하여 수정할 수도 있다. Introduction 대화형 segmentation은 다양한 방법들이 있지만 클릭 기반 방법이 유연하고 상호작용에 가장 적절하다. 클릭 기반 대화식 segmentation의 확장을 제안. 반복 훈련 절차를 통해 네트워크가 이전 단계의 마스크를 인식하도록 하여 안정성을 향상한다. 또한 정교한 마스크가 있는 다양한 대규모 데이터셋이 성능에 중요한 역할을 함. Relat..
Iteratively Trained Interactive Segmentation 사용자 클릭을 반복적으로 입력하여 학습하는 segmentation framework Github arXiv Abstract 클릭 형태의 사용자 입력을 컨볼루션 네트워크에 대한 입력으로 사용하는 대화형 object segmentation 시스템을 개발. 학습하는 동안 현재 예측된 segmentation의 오류를 기반으로 반복적으로 클릭을 추가하는 반복 학습 전략 제안. Introduction 본 논문에서는 클릭을 사용자 입력으로 관심 객체에 픽셀을 추가하거나 제거하는 대화형 segmentation에 중점을 둔다. 실제 사용자 클릭 데이터셋을 모으기가 힘들기 때문에 에뮬레이트된 클릭 패턴 사용. 본 논문의 기여 클릭 기반 대화형 segmentation 프레임워크 ITIS(Iteratively Trained ..
Segment Anything (SAM) Segmentation을 위한 최초의 foundation model Github arXiv Abstract 1000만 개 이상의 이미지 및 10억 개 이상의 마스크를 가진 현존하는 가장 큰 segmentation 데이터셋(SA-1B)과 해당 데이터셋으로 학습해 인상적인 제로샷 성능을 보여주는 SAM(Segment Anything Model) 제안. Introduction 웹 규모의 데이터셋에서 학습된 대규모 언어 모델은 강력한 일반화로 NLP를 혁신하고 있다. 본 논문의 목표는 segmentation에서 이러한 foundation model을 구축하는 것이다. 이를 위해 다음과 같은 질문들을 해결해야 한다. 제로샷 일반화를 가능하게 하는 작업은 무엇인가? 해당 모델의 아키텍처는? 어떤 데이터가 이 작업과..
Token Merging for Fast Stable Diffusion 토큰 병합을 확산 모델에 적용 Github arXiv Abstract Token Merging을 Stable Diffusion에 적용하여 속도 향상 Introduction 대부분의 이미지는 중복성이 높고, 따라서 모든 토큰에 대해 계산을 수행하는 것은 리소스의 낭비이다. 추가적인 훈련 없이 평가 속도를 높일 수 있는 token merging(ToMe)을 SD에 적용. ToMe는 SD의 속도를 크게 향상할 수 있었지만 이미지 품질이 크게 저하되었다. 속도 향상과 함께 이미지 품질을 유지하기 위한 새로운 기술을 도입한다. Background ToMe LDM(Stable Diffusion) Token Merging for Stable Diffusion 확산 모델에서는 모든 토큰에 대해 제거할 노이즈를 알아야 ..
Token Merging: Your ViT But Faster 추가 훈련 없이 토큰 병합으로 속도 높이기 Github arXiv Abstract 추가 훈련 없이 ViT 모델의 처리량을 늘릴 수 있는 토큰 병합(ToMe) 소개. ToMe는 경량 매칭 알고리즘을 사용하여 유사한 토큰을 점진적으로 결합한다. Introduction 컴퓨팅 비용을 줄이기 위해 Swin Transformer와 같은 방법들이 나왔지만 vanilla ViT는 여전히 바람직한 특성 몇 가지를 갖고 있다. 간단한 행렬 곱셈으로 구성 MAE와 같은 자체 감독 훈련 가능 데이터에 대한 가정이 부족하여 다양한 양식에 적용 가능하고 확장성이 있음 더 빠른 모델을 위해 런타임 시 토큰을 정리하는 token pruning이 제안되었지만 정보 손실의 우려가 있고 모델의 재교육해야 함. 본 논문에서는 토큰을 제거..